数据爬取主要是通过使用requests实现的,鉴于爬取数据的流程简单以及电脑的性能所限,没有使用scrapy框架,而是使用where循环手动控制页码的形式,每次爬取5页信息,并将信息写入.csv文件中。
得到数据后,首先看一下数据的描述性变量,通过print(data_read.describe())得到如下结果:
观察网页,发现实际上当前区域只有1542套房源,可以得知数据里面包含了重复数据。
这是由于在爬取信息时采用了手动改变页面的形式,每次爬取后在写入csv文件时,都会写入一个表头,所以造成了表头重复,这里需要把表头去重。
no_repeat_df = data_read.drop_duplicates()#去掉重复行
去重后再次查看信息行数:print(norepeat_df[‘名称’].count()),结果为1542,数据条数与原始数据一致。
检查缺失值,print(norepeat_df.info()),结果如下:
这里通过初步观察,没有发现缺失值,都为1542。
数据可视化分析
接下来假设当前数据没有问题,首先进行楼盘特征分析。对于楼盘特征,我们可以分析不同楼盘房价和数量的对比。
这里使用了pandas的网络透视功能groupby 分组排序。楼盘特征可视化直接采用 seaborn完成,颜色使用调色