数据项目总结 -- 深圳租房数据分析!

 Datawhale干货 

作者:皮钱超,厦门大学,Datawhale原创作者

本文约3000字,建议阅读9分钟

审稿人:阿泽,Datawhale成员,复旦大学计算机硕士,目前在携程担任高级算法工程师。

最近在一个相对比较知名的房源网站上爬取了一份深圳各个区的租房信息,总共获得了2000*12的数据集。

在获得了相应的数据之后,利用Python的第三方库pandas进行前期的数据清洗工作,最后可视化库plotly绘制了相应的可视化图形进行了展示,并且得到了一些租房的结论,供租房者参考,自己对深圳的租房也有了一定的认识。

  • 爬虫数据获取

  • 数据清洗处理

  • 数据可视化展示

  • 得到结论

一、数据爬取

本文中获得的数据是自己通过爬虫从网上获取的。这个房源没有太多的反爬虫措施,所以爬取的过程没有遇到困难,比较顺利。数据集已打包,后台回复关键词 租房 下载。以下代码供参考。

1.1 导入各种库

首先,我们需要导入各种库,具体如下:

1.2 代码

下面????是整个爬虫的源代码,主要是包含了以下几方面的信息:

  • 在爬虫过程中需要设置请求头,伪装成浏览器的操作

  • 如何利用Xpath进行数据解析

  • 如何将Python中的字典类型数据转成json类型数据,主要是掌握json包的使用

  • 获取到数据后,使用xlwt进行数据的保存

二、数据处理

2.1 数据的读取

上面的数据保存成了excel数据,我们直接通过pandas的read_excel来进行数据的读取

2.2 字段含义

下面????对每个爬取的每个字段对应的含义进行了解释:

"""
name: 小区的名字
layout:户型
location:朝向
size:房子建筑面积大小
sizeInside:套内面积大小
zhuangxiu:精装、豪装、普装、毛坯
numberFloor:楼层数
time:建成时间
zone:区
position:所在区的具体位置
money:价格
way:出租方式(整租或者合租)
"""

2.3 原始数据信息

首先我们查看下数据的原始信息:

  • 数据类型

  • 是否有缺失值

2.4 删除缺失值

使用的是dropna函数,两个重要的参数:

  • axis:0表示行,1表示列

  • how:any表示至少有一个缺失值,all表示必须全部为缺失值

三、字段处理

3.1 为何处理

对于我们已经获取到的数据字段,针对其中的某些字段,我们处理的只是其中某些信息,所以我们需要将它们从原始数据中提取出来再处理

3.2 处理方法

在这里介绍3种方法来处理数据:

  1. 通过向apply方法传入我们处理的函数或者方法

  2. 通过正则表达式来处理

  3. 通过replace方法来处理

3.3 处理前后对比

我们看下处理前的前5条数据:

处理之后我们增加了一个room字段,表示的是多少个房间

在经过处理之后,数据的类型也发生了变化:

四、基于单个特征的分析

4.1 租房方式-way

首先对整个租房方式进行了处理和可视化展示,从下面的饼图中直接看出来:接近100%的房东选择整租的方式

结论1:房东更愿意整租

4.2 区域-zone

第二,我们对比每个区的房源情况,从下面的饼图中,可以得到以下 结论2:

  1. 福田区作为深圳的CBD,平安大厦所在地,房源是最多的

  2. 龙华和龙岗两个区是老的工业区,房源也非常多,听说价格也相对便宜

  3. 南山区作为互联网科技中心,房源紧随其后,价格相对就较高

  4. 坪山、盐田、光明这3个去相对落后,房源相对少些

4.3 装修方式-zhuangxiu

接下来对各种装修方式的房源进行对比分析。其中颜色表示的是各个区的房源数量,数量越多越接近蓝色

很明显:房子的装修风格还是在精装普装

4.4 房子方位-location

接下来我们统计房源中每个房子的朝向,找出哪些朝向的房子更受欢迎。

通过饼图我们可以得到如下结论。

结论3:朝南、朝南北、朝北3种方位的朝向显然更受欢迎。

4.5 居室个数-room

在房东提供的房源中,每个房子的房间数量不尽相同,分析统计每个房子的房间数量。

很明显的结论4:

房子中房间数量为3,2,1的房子是非常多的

五、行政区对房价的影响

接下来我们通过人力图来分析不同的行政区对房价的影响。通过热力图得到如下的结论5:

  1. 南山区作为互联网科技中心,福田区作为CBD中心,房价偏高

  2. 光明、坪山、盐田3个区相对落后,房价偏低

以上两个结论和实际情况也是符合的

六、房价与时间关系

在不同年份建成的房子,价格肯定是不同的,也造成了房子的出租价格不同。本节中分析房子的老旧(建成时间)对房租的影响

6.1 关内和关外

在很多年之前,深圳的行政区从区的城市建设风貌、市政管理、繁华程度等分为有关内和关外的说法

  • 关内:福田、南山、罗湖、盐田

  • 关外:宝安、龙岗、龙华、光明新区、坪山、大鹏

这种叫法目前是不存在了,但是每个区的经济实力不尽相同是不争的事实

6.2 关内

通过观察关内的数据分布,可以看到:

  • 南山和福田两个区的价格是明显高于盐田和罗湖的

  • 南山的平均价格在2w左右

  • 盐田区的整体价格偏低

  • 罗湖区的价格较稳定,波动很小

image-20200703201131031

6.3 关外

  • 关外的价格明显是低于关内的

  • 龙岗和宝安会偶尔出现高价的房源

  • 光明和坪山的价格整体偏低

七、多特征的可视化

在这里以南山区进行分析,具体过程为:

  1. 得到我们绘图的数据

  2. 做出散点图和其他多特征的图形

7.1 作图数据

先处理绘图需要的数据

7.2 多特征-多图

为了分析某个区中房源分布、价格分布、楼层数等多因素对房租价格的影响,我们选择了南山区进行分析:

得到如下几点结论:

  1. 南山区的后海和南油、蛇口是南山区的租房热门地点

  2. 南山区的房子个数中2个最多,3个和1个其次

  3. 价格在10k左右的房源数量是最多的

# 1. 数据集说明 这是一份北京的租房数据,总计7000 多 条记录,分为 8 个同样结构的 CSV 数据文件。 # 2. 数据处理 首先通过 pandas 将这些数据文件合并到一起,然后进行数据处理,最后将清洗好的数据写到 sqlite 。 # 3.数据分析可视化 ## 3.1 整体情况 该数据集总共有 6024 个房源信息,平均每平米的租金为 169 元,每套房源的平均出租面积为 15.68 平米。 ## 3.2 地区分析 房源数量分布情况如下,可以看到朝阳和通州这两个地区的房源数量要远大于其它区,说明这两个地方的租赁市场比较活跃,人员流动和人口密度可能也比较大。 房租最贵的小区 TOP 10。半壁街南路 1 号院的房租最高,达到 596 元/平米,是平均值 169 元/平米的 **3** 倍。 从户型的房源数量分布来看,主要集中在 2-4 室的户型。之前也分析了,每套房源的平均出租面积为 15.68 平米,可见大部分房源都是合租,毕竟房租那么贵,生活成本太高了。 国家规定楼层 7 层以上需要装电梯,依据这个规定,我们根据楼层数来判断房源是否有电梯。 从下图可以看到,电梯房的房源数量比较多,毕竟楼层高,建的房子多,此外,电梯房平均每平米的租金也要比非电梯房贵 10 块钱。 在区分出电梯房之后,我们再引入楼层的纬度进行分析。 从租金上看,不管是电梯房还是非电梯房,低楼层的租金都会比较贵一些。因为北京地处北方,天气较干燥,不会有回南天,而且低楼层出行较为方便。电梯房的高楼层,租金也会比较贵,这大概是因为高楼层的风景较好。 > 南方天气潮湿,在春天的时候,有时会出现 回南天 这一气象,导致低楼层会出现地板、墙壁渗水,所以在南方一般都不爱租低层。 从房源数量上看,非电梯房的高层房源最多,低层房源最少。说明非电梯房的高层房源不容易租出去,这点在租金上也有所体现。
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值