想到马上就要大四了离毕业也不远了,住学校的日子转瞬即逝,届时可能需要自己寻找新的栖身之处,于是对链家学校附近的租房信息进行爬取并分析,了解租房行情,为以后的租房未雨绸缪。
本文通过爬取链家天河区的房源信息,并全程使用Excel进行数据分析,文章较为详细,包含详细步骤。
提出问题
(一切数据分析都是以业务为核心目的)
- 天河区房源的基本情况
- 房屋面积和租金的变化趋势
- 哪种户型的房子性价比较高
- 哪个区域的房子性价比较高
- 其他可能影响租金的因素(如:交通、房屋朝向、楼层、是否合租等)
爬取数据
工具:八爪鱼采集器
数据量:1503
爬取下来后导出为Excel的文件格式,打开进行预览。
理解数据
原始数据有以下字段:城市,房源标题,房源上架时间,链家编号,价格,租赁方式,房型,楼层,面积,朝向,地铁,小区,位置,经度,纬度,房源照片链接,房源介绍,当前时间,页面网址
对数据进行预览,可以看到一些字段是我们不需要的,比如:城市、房源标题、房源上架时间等,为了保证数据完整性,对其进行隐藏。(因为往后可能会用到)
保留如下字段:链家编号,价格,租赁方式,房型,楼层,面积,朝向,地铁,小区,位置,经度,纬度
数据清洗
删除重复值
利用数据工具中的删除重复项