前言
临近毕业,面临找工作找住所的问题。正好赶上正好赶上最近在学习数据分析,于是尝试对链家网上的租房信息进行分析,了解一下最近的租房行情。
提出猜想
简单分析了一下影响租房价格的因素,根据可以爬取到的数据选取了以下几个点:
租房价格同面积、地理位置、房屋格局高度相关
租房价格几乎不受楼层、朝向、看房便利等因素影响
数据获取
1.对网页分析,提取想要的数据,如下:
2.利用python爬虫,爬取了8.2w条成都链家租房数据,部分如下:
数据预处理
1.利用pandas对数据字段进行整理,如将str型的房屋面积131㎡ 转为方便计算的float型。
2.异常值处理,如对房屋租金画盒图查看偏差值:
实际查看链家页面后发现,确实存在一些租金的房屋出租,这并不是因为数据获取出错造成的数据误差。
但