python 住区数据_GitHub - dstao/data_analysis: 基于Python的南京二手房数据采集及可视化分析...

最新推荐文章于 2024-09-17 15:51:21 发布

勤劳课代表

最新推荐文章于 2024-09-17 15:51:21 发布

阅读量1.2k

点赞数

文章标签： python 住区数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_33747775/article/details/113965015

版权

本文介绍了使用Python爬虫采集链家网南京二手房数据，进行数据清洗和可视化分析的过程。通过网络爬虫技术获取房源信息，使用Numpy、Matplotlib和Pandas进行数据处理和可视化，揭示了南京二手房的分布规律和特征。数据清洗后，运用k-means聚类算法对房源进行分类，展示了不同类别房源的区域分布特点，为购房决策提供参考。

摘要由CSDN通过智能技术生成

基于Python的南京二手房数据采集及可视化分析

1 内容简介

首先通过爬虫采集链家网上所有南京二手房的房源数据，并对采集到的数据进行清洗；然后，对清洗后的数据进行可视化分析，探索隐藏在大量数据背后的规律；最后，采用一个聚类算法对所有二手房数据进行聚类分析，并根据聚类分析的结果，将这些房源大致分类，以对所有数据的概括总结。通过上述分析，我们可以了解到目前市面上二手房各项基本特征及房源分布情况，帮助我们进行购房决策。

2 应用技术介绍

1)Python网络爬虫技术

Requests

Beautifulsoup

2)Python数据分析技术

Numpy

Matplotlib

Pandas

3)k-means聚类算法

4)高德地图开发者应用JS API

3 数据采集及数据清洗

3.1 数据采集

该部分通过网络爬虫程序抓取链家网上所有南京二手房的数据，收集原始数据，作为整个数据分析的基石。

3.1.1 链家网网站结构分析

链家网二手房主页界面如图1、图2，主页上面红色方框位置显示目前南京二手房在售房源的各区域位置名称，中间红色方框位置显示了房源的总数量，下面红色方框显示了二手房房源信息缩略图，该红色方框区域包含了二手房房源页面的URL地址标签。图2下面红色方框显示了二手房主页上房源的页数。

链家网二手房主页截图上半部分：

图1 链家网二手房主页

链家网二手房主页截图下半部分：

图2 链家网二手房主页

二手房房源信息页面如图3、图4。我们需要采集的目标数据就在该页面，包括基本信息、房屋属性和交易属性三大类。各类信息包括的数据项如下：

1)基本信息：小区名称、所在区域、总价、单价。

2)房屋属性：房屋户型、所在楼层、建筑面积、户型结构、套内面积、建筑类型、房屋朝向、建筑结构、装修情况、梯户比例、配备电梯、产权年限。

3)交易属性：挂牌时间、交易权属、上次交易、房屋用途、房屋年限、产权所属、抵押信息、房本备件。

图3 二手房房源信息页面

图4 二手房房源信息页面

3.1.3 网络爬虫程序关键问题说明

1)问题1：链家网二手房主页最多只显示100页的房源数据，所以在收集二手房房源信息页面URL地址时会收集不全，导致最后只能采集到部分数据。

解决措施：将所有南京二手房数据分区域地进行爬取，100页最多能够显示3000套房，该区域房源少于3000套时可以直接爬取，如果该区域房源超过3000套可以再分成更小的区域。

2)问题2：爬虫程序如果运行过快，会在采集到两、三千条数据时触发链家网的反爬虫机制，所有的请求会被重定向到链家的人机鉴定页面，从而会导致后面的爬取失败。

解决措施：①为程序中每次http请求构造header并且每次变换http请求header信息头中USER_AGENTS数据项的值，让请求信息看起来像是从不同浏览器发出的访问请求。②爬虫程序每处理完一次http请求和响应后，随机睡眠1-3秒，每请求2500次后，程序睡眠20分钟，控制程序的请求速度。

3.2 数据清洗

对于爬虫程序采集得到的数据并不能直接分析，需要先去掉一些“脏”数据，修正一些错误数据，统一所有数据字段的格式，将这些零散的数据规整成统一的结构化数据。

3.2.1 原始数据主要需要清洗的部分

主要需要清洗的数据部分如下：

1)将杂乱的记录的数据项对齐

2)清洗一些数据项格式

3)缺失值处理

3.2.3 数据清洗结果

数据清洗前原始数据如图8，清洗后的数据如图9，可以看出清洗后数据已经规整了许多。

图8 清洗前原始数据截图

图9 清洗后的数据截图

4 数据可视化分析

在数据清洗完成后，我们就可以开始对数据进行可视化分析。该阶段主要是对数据做一个探索性分析并将结果可视化呈现，帮助人们更好、更直观的认识数据，把隐藏在大量数据背后的信息集中和提炼出来。本文主要对二手房房源的总价、单价、面积、户型、地区等属性进行了分析。

数据可视化分析主要步骤如下：1)数据加载；2)数据转换；3)数据可视化呈现。

4.1 数据加载

数据分析和建模的大量工作都是用在数据准备上的，如：清理、加载、转换等。清洗完成后的数据仍然存储在文本文件(CSV格式)中，要对数据进行可视化分析，必须先要将数据按一定结果加载到内存中。我们使用Panda

最低0.47元/天解锁文章

勤劳课代表

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。