1数据爬取
1.1目标网站及数据选择
1.1.1 Q房网深圳二手房待售小区信息页
2、Q房网深圳二手房房源价格与各项指标信息页
1.2编写爬虫
code省略。
运行结果如下:
本文利用Anaconda里自带的Jupyter Notebook编辑器进行爬虫编写,新建Python3程序,首先创建请求头,定义初始化,爬取页及解析页的方法,将爬取得到的数据存为dataframe形式,并保存到本地txt文件中。
2数据预处理
2.1数据清洗
在进行数据分析之前,由于可能存在残缺补全的数据,因此需要先进行数据预处理,才能进行接下来的数据分析。首先使用Pandas库的read_csv方法打开前面爬取到的数据,并赋予各个列新的列名。
对【所在区域】列、【建设时间】列做数据清理,使用pandas库的str属性的split方法对数据进行切割,将多余的\r\n等去掉。其次,将【二手房现存量】和【租房现存量】列中除数字之外的字符去掉,并将这两列转换成int类型,便于后面我们对其进行数据可视化分析。
数据清洗结果如下: