链家网沈阳二手房数据分析——从数据爬取到数据分析

最新推荐文章于 2023-01-03 23:44:44 发布

博丽芙兰

最新推荐文章于 2023-01-03 23:44:44 发布

阅读量3.3k

点赞数 3

分类专栏： Python 文章标签： python 数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/nanquan11/article/details/107090838

版权

本文详述了对链家网沈阳二手房数据的爬取与分析过程。通过requests获取数据并去重，分析显示有1542套房源。数据无缺失值，热门楼盘包括世贸新五里河等。面积主要集中在40-180平，3室2厅和2室2厅是最常见的户型。房价与面积成线性关系，精装修房源最多，建成年代影响房价，高层房屋最受欢迎，南北朝向房源价格最高。

摘要由CSDN通过智能技术生成

在这里插入图片描述数据爬取主要是通过使用requests实现的，鉴于爬取数据的流程简单以及电脑的性能所限，没有使用scrapy框架，而是使用where循环手动控制页码的形式，每次爬取5页信息，并将信息写入.csv文件中。
得到数据后，首先看一下数据的描述性变量，通过print(data_read.describe())得到如下结果：
在这里插入图片描述观察网页，发现实际上当前区域只有1542套房源，可以得知数据里面包含了重复数据。
这是由于在爬取信息时采用了手动改变页面的形式，每次爬取后在写入csv文件时，都会写入一个表头，所以造成了表头重复，这里需要把表头去重。

no_repeat_df = data_read.drop_duplicates()#去掉重复行

去重后再次查看信息行数：print(norepeat_df[‘名称’].count())，结果为1542，数据条数与原始数据一致。
检查缺失值，print(norepeat_df.info())，结果如下：
在这里插入图片描述这里通过初步观察，没有发现缺失值，都为1542。

数据可视化分析
接下来假设当前数据没有问题，首先进行楼盘特征分析。对于楼盘特征，我们可以分析不同楼盘房价和数量的对比。

在这里插入图片描述这里使用了pandas的网络透视功能groupby 分组排序。楼盘特征可视化直接采用 seaborn完成，颜色使用调色

最低0.47元/天解锁文章

关注

3
点赞
踩
36

收藏

觉得还不错? 一键收藏
1
评论
链家网沈阳二手房数据分析——从数据爬取到数据分析

数据爬取主要是通过使用requests实现的，鉴于爬取数据的流程简单以及电脑的性能所限，没有使用scrapy框架，而是使用where循环手动控制页码的形式，每次爬取5页信息，并将信息写入.csv文件中。得到数据后，首先看一下数据的描述性变量，通过print(data_read.describe())得到如下结果：观察网页，发现实际上当前区域只有1542套房源，可以得知数据里面包含了重复数据。这是由于在爬取信息时采用了手动改变页面的形式，每次爬取后在写入csv文件时，都会写入一个表头，所以造成了表头重复
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。