【中国租房信息集分析——基于spark程序,scala语言】

该博客通过Spark程序和Scala语言对中国租房信息进行了深入分析,包括数据处理、统计指标计算,如小区到学校距离、上海三室两卫一厅周边医院、各城市房租最贵小区和北京学校数量最多的小区等。
摘要由CSDN通过智能技术生成

目录

一、数据处理

1.数据来源

2.数据转换

3.数据上传

二、统计指标

1.统计每个小区中距离学校最近的距离

2.统计上海市三室两卫一厅房型的周边医院最多的十个小区

3.统计各个城市各个区中房租最贵的前十个小区

4.统计北京市周边学校个数最多的五十个小区、

三、总结


前言

Spark程序是基于Apache Spark框架开发的应用程序,旨在处理大规模数据集。

本文编写Spark程序,使用的是Scala编程语言。利用Spark中强大的功能来快速处理数据,并在处理过程中进行实时计算和交互。Spark程序通常部署在Spark集群上,以获得最佳性能和可伸缩性。

一、数据处理

1.数据来源

网页:数据科学科研和教学一体化平台 (idatascience.cn)

2.数据转换

因为拿到的数据是csv格式的,所以需要将csv格式转为json格式,下面是使用python语言将csv格式转为json格式的代码

3.数据上传

借助工具将json格式的文件传到虚拟机上,然后使用命令将文件上传到hdfs上,便于后续分析;

ps:hdfs dfs -mkdir /house_data 的作用是创建一个文件夹,用于存放数据

二、统计指标

主要以统计每个小区中距离学校最近的距离、统计上海市三室两卫一厅房型的周边医院最多的十个小区、统计各个城市各个区中房租最贵的前十个小区 、统计北京市周边学校个数最多的五十个小区这四个指标进行数据分析

1.统计每个小区中距离学校最近的距离

实现步骤:1.创建sparkSession对象和Dataset[Row]对象——2.筛选出只包含"城市","区","小区","详细地址","最近学校距离"五个字段数据——3.将最近学校距离的字段改为数值型——4.分组后使用min()方法求距离学校最近的距离——5.将结果存到数据库

代码如下:

package com.lzzy

import org.apache.spark.sql.{Column, Dataset, Row, SaveMode, SparkSession}
import java.util.Properties

object NearestToSchool {
  def main(args: Array[String]): Unit = {
    //创建sparkSession对象
    val ss: SparkSession = SparkSession.builder.appName("NearestToSchool").master("local").getOrCreate

    //创建Dataset对象
    val data: Dataset[Row] = ss.read.json("hdfs://master-20210322076:9000/house_data/*")

    //筛选出只包含"城市","区","小区","详细地址","最近学校距离"五个字段数据
    val dataset: Dataset[Row] = data.select("城市", "区", "小区", "详细地址", "最近学校距离")

    //将最近学校距离转为数字类型,并赋值到原来列
    val df: Dataset[Row] &#
# 1. 数据说明 这是一份北京租房数据,总计7000 多 条记录,分为 8 个同样结构的 CSV 数据文件。 # 2. 数据处理 首先通过 pandas 将这些数据文件合并到一起,然后进行数据处理,最后将清洗好的数据写到 sqlite 。 # 3.数据分析可视化 ## 3.1 整体情况 该数据总共有 6024 个房源信息,平均每平米的租金为 169 元,每套房源的平均出租面积为 15.68 平米。 ## 3.2 地区分析 房源数量分布情况如下,可以看到朝阳和通州这两个地区的房源数量要远大于其它区,说明这两个地方的租赁市场比较活跃,人员流动和人口密度可能也比较大。 房租最贵的小区 TOP 10。半壁街南路 1 号院的房租最高,达到 596 元/平米,是平均值 169 元/平米的 **3** 倍。 从户型的房源数量分布来看,主要中在 2-4 室的户型。之前也分析了,每套房源的平均出租面积为 15.68 平米,可见大部分房源都是合租,毕竟房租那么贵,生活成本太高了。 国家规定楼层 7 层以上需要装电梯,依据这个规定,我们根据楼层数来判断房源是否有电梯。 从下图可以看到,电梯房的房源数量比较多,毕竟楼层高,建的房子多,此外,电梯房平均每平米的租金也要比非电梯房贵 10 块钱。 在区分出电梯房之后,我们再引入楼层的纬度进行分析。 从租金上看,不管是电梯房还是非电梯房,低楼层的租金都会比较贵一些。因为北京地处北方,天气较干燥,不会有回南天,而且低楼层出行较为方便。电梯房的高楼层,租金也会比较贵,这大概是因为高楼层的风景较好。 > 南方天气潮湿,在春天的时候,有时会出现 回南天 这一气象,导致低楼层会出现地板、墙壁渗水,所以在南方一般都不爱租低层。 从房源数量上看,非电梯房的高层房源最多,低层房源最少。说明非电梯房的高层房源不容易租出去,这点在租金上也有所体现。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值