数据项目总结 -- 深圳租房数据分析

本文作者通过爬虫获取深圳租房数据,使用Python进行数据清洗和处理,利用数据可视化库揭示租房市场趋势。分析发现,福田区房源最多,房东偏好整租,南山区和关内房价偏高,而朝南、朝南北、朝北的房子最受欢迎。
摘要由CSDN通过智能技术生成

时间煮雨
@R星校长

最近在一个相对比较知名的房源网站上爬取了一份深圳各个区的租房信息,总共获得了2000*12的数据集。
在获得了相应的数据之后,利用Python的第三方库pandas进行前期的数据清洗工作,最后可视化库plotly绘制了相应的可视化图形进行了展示,并且得到了一些租房的结论,供租房者参考,自己对深圳的租房也有了一定的认识。

  • 爬虫数据获取
  • 数据清洗处理
  • 数据可视化展示
  • 得到结论

在这里插入图片描述
一、数据爬取
本文中获得的数据是自己通过爬虫从网上获取的。这个房源没有太多的反爬虫措施,所以爬取的过程没有遇到困难,比较顺利。数据集和代码已打包,提取码:56kj提取码:q8ni 以下代码供参考。

1.1 导入各种库

首先,我们需要导入各种库,具体如下:

在这里插入图片描述
1.2 代码
下面👇是整个爬虫的源代码,主要是包含了以下几方面的信息:

  • 在爬虫过程中需要设置请求头,伪装成浏览器的操作
  • 如何利用Xpath进行数据解析
  • 如何将Python中的字典类型数据转成json类型数据,主要是掌握json包的使用
  • 获取到数据后,使用xlwt进行数据的保存

在这里插入图片描述
二、数据处理

2.1 数据的读取

上面的数据保存成了excel数据,我们直接通过

  • 1
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
# 1. 数据集说明 这是一份北京的租房数据,总计7000 多 条记录,分为 8 个同样结构的 CSV 数据文件。 # 2. 数据处理 首先通过 pandas 将这些数据文件合并到一起,然后进行数据处理,最后将清洗好的数据写到 sqlite 。 # 3.数据分析可视化 ## 3.1 整体情况 该数据集总共有 6024 个房源信息,平均每平米的租金为 169 元,每套房源的平均出租面积为 15.68 平米。 ## 3.2 地区分析 房源数量分布情况如下,可以看到朝阳和通州这两个地区的房源数量要远大于其它区,说明这两个地方的租赁市场比较活跃,人员流动和人口密度可能也比较大。 房租最贵的小区 TOP 10。半壁街南路 1 号院的房租最高,达到 596 元/平米,是平均值 169 元/平米的 **3** 倍。 从户型的房源数量分布来看,主要集中在 2-4 室的户型。之前也分析了,每套房源的平均出租面积为 15.68 平米,可见大部分房源都是合租,毕竟房租那么贵,生活成本太高了。 国家规定楼层 7 层以上需要装电梯,依据这个规定,我们根据楼层数来判断房源是否有电梯。 从下图可以看到,电梯房的房源数量比较多,毕竟楼层高,建的房子多,此外,电梯房平均每平米的租金也要比非电梯房贵 10 块钱。 在区分出电梯房之后,我们再引入楼层的纬度进行分析。 从租金上看,不管是电梯房还是非电梯房,低楼层的租金都会比较贵一些。因为北京地处北方,天气较干燥,不会有回南天,而且低楼层出行较为方便。电梯房的高楼层,租金也会比较贵,这大概是因为高楼层的风景较好。 > 南方天气潮湿,在春天的时候,有时会出现 回南天 这一气象,导致低楼层会出现地板、墙壁渗水,所以在南方一般都不爱租低层。 从房源数量上看,非电梯房的高层房源最多,低层房源最少。说明非电梯房的高层房源不容易租出去,这点在租金上也有所体现。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值