@R星校长
最近在一个相对比较知名的房源网站上爬取了一份深圳各个区的租房信息,总共获得了2000*12
的数据集。
在获得了相应的数据之后,利用Python
的第三方库pandas
进行前期的数据清洗工作,最后可视化库plotly
绘制了相应的可视化图形进行了展示,并且得到了一些租房的结论,供租房者参考,自己对深圳的租房也有了一定的认识。
- 爬虫数据获取
- 数据清洗处理
- 数据可视化展示
- 得到结论
一、数据爬取
本文中获得的数据是自己通过爬虫从网上获取的。这个房源没有太多的反爬虫措施,所以爬取的过程没有遇到困难,比较顺利。数据集和代码已打包,提取码:56kj。提取码:q8ni 以下代码供参考。
1.1 导入各种库
首先,我们需要导入各种库,具体如下:
1.2 代码
下面👇是整个爬虫的源代码,主要是包含了以下几方面的信息:
- 在爬虫过程中需要设置请求头,伪装成浏览器的操作
- 如何利用
Xpath
进行数据解析 - 如何将
Python
中的字典类型数据转成json
类型数据,主要是掌握json
包的使用 - 获取到数据后,使用
xlwt
进行数据的保存
二、数据处理
2.1 数据的读取
上面的数据保存成了excel数据,我们直接通过pandas的read_excel来进行数据的读取