链家网沈阳二手房数据分析——从数据爬取到数据分析

本文详述了对链家网沈阳二手房数据的爬取与分析过程。通过requests获取数据并去重,分析显示有1542套房源。数据无缺失值,热门楼盘包括世贸新五里河等。面积主要集中在40-180平,3室2厅和2室2厅是最常见的户型。房价与面积成线性关系,精装修房源最多,建成年代影响房价,高层房屋最受欢迎,南北朝向房源价格最高。
摘要由CSDN通过智能技术生成

在这里插入图片描述数据爬取主要是通过使用requests实现的,鉴于爬取数据的流程简单以及电脑的性能所限,没有使用scrapy框架,而是使用where循环手动控制页码的形式,每次爬取5页信息,并将信息写入.csv文件中。
得到数据后,首先看一下数据的描述性变量,通过print(data_read.describe())得到如下结果:
在这里插入图片描述观察网页,发现实际上当前区域只有1542套房源,可以得知数据里面包含了重复数据。
在这里插入图片描述这是由于在爬取信息时采用了手动改变页面的形式,每次爬取后在写入csv文件时,都会写入一个表头,所以造成了表头重复,这里需要把表头去重。

no_repeat_df = data_read.drop_duplicates()#去掉重复行

去重后再次查看信息行数:print(norepeat_df[‘名称’].count()),结果为1542,数据条数与原始数据一致。
检查缺失值,print(norepeat_df.info()),结果如下:
在这里插入图片描述这里通过初步观察,没有发现缺失值,都为1542。

数据可视化分析
接下来假设当前数据没有问题,首先进行楼盘特征分析。对于楼盘特征,我们可以分析不同楼盘房价和数量的对比。

在这里插入图片描述在这里插入图片描述在这里插入图片描述这里使用了pandas的网络透视功能groupby 分组排序。楼盘特征可视化直接采用 seaborn完成,颜色使用调色

  • 3
    点赞
  • 36
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值