【数据爬取和数据分析】Q房网深圳二手房源分析

本文通过Python爬虫获取Q房网深圳二手房数据,进行数据清洗、预处理,分析了二手房价格、区域分布、户型、装修状况等,揭示了深圳各区房源特点。结果显示,龙岗区待售数最多,南山、福田价格高,3室2厅是最常见户型,大部分房源已装修。词云分析表明,中介倾向于使用"满五年"、"花园"、"精装修"等关键词。
摘要由CSDN通过智能技术生成

1数据爬取

1.1目标网站及数据选择

1.1.1 Q房网深圳二手房待售小区信息页
在这里插入图片描述
2、Q房网深圳二手房房源价格与各项指标信息页
在这里插入图片描述

1.2编写爬虫

code省略。
运行结果如下:
在这里插入图片描述
在这里插入图片描述
本文利用Anaconda里自带的Jupyter Notebook编辑器进行爬虫编写,新建Python3程序,首先创建请求头,定义初始化,爬取页及解析页的方法,将爬取得到的数据存为dataframe形式,并保存到本地txt文件中。

2数据预处理

2.1数据清洗

在这里插入图片描述
在这里插入图片描述
在进行数据分析之前,由于可能存在残缺补全的数据,因此需要先进行数据预处理,才能进行接下来的数据分析。首先使用Pandas库的read_csv方法打开前面爬取到的数据,并赋予各个列新的列名。
对【所在区域】列、【建设时间】列做数据清理,使用pandas库的str属性的split方法对数据进行切割,将多余的\r\n等去掉。其次,将【二手房现存量】和【租房现存量】列中除数字之外的字符去掉,并将这两列转换成int类型,便于后面我们对其进行数据可视化分析。
数据清洗结果如下:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.3数据说明

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Huang Zenan

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值