周末周六两天,做了链家网的爬虫,可能有很多朋友做过,当然很多人只是练爬虫,但没有对爬取数据进行一些可视化去发现一些比较有意思的东西,今天想要通过抓取的数据进行一些比较有趣的统计分析。
如果你想要这份数据:关注公众号:(路人甲TM),回复(链家数据)
今天文章分成两大部分
- 对链家网的租房信息数据进行一些简单统计分析
- 探索最高租价房源
- 利用距离模拟画出南京市地铁路线图
- 南京市的高层建筑在哪里?
- 解释链家网爬虫代码的重要部分
- 最后链家数据的获取方式
第一大部分:对链家的数据进行一些简单统计分析
1、探索最高租价房源
首先我此次分析的主题是南京的租房状况,所以这里我先抓取了南京的租房的信息,数据出来之后放入表格中的样子是这样的,包含:小区名、租价、经度、维度、房屋面积、室厅卫、是否整租、楼层高度、房屋方向、到最近地铁的距离。
![v2-7bf16db9cd2c98a7d0590077a66bb85d_b.png](https://i-blog.csdnimg.cn/blog_migrate/f18b8badd8669c7a7d5e19ae5cb2649e.png)
对于以上的数据,刚拿到我就开心的扔到了tableau里面,发现有点问题。一开始没意识到的问题,链家中的地理位置信息使用的是百度地图的,百度地图经纬度有所偏移。
![v2-cae87fae252d29718692c429fa778991_b.png](https://i-blog.csdnimg.cn/blog_migrate/e24515f9030779588efa86c2aee95552.png)
好在,百度提供了这个接口