0 项目说明
基于Python的南京二手房数据采集及可视化分析
提示:适合用于课程设计或毕业设计,工作量达标,源码开放
1 内容简介
首先通过爬虫采集链家网上所有南京二手房的房源数据,并对采集到的数据进行清洗;然后,对清洗后的数据进行可视化分析,探索隐藏在大量数据背后的规律;最后,采用一个聚类算法对所有二手房数据进行聚类分析,并根据聚类分析的结果,将这些房源大致分类,以对所有数据的概括总结。通过上述分析,我们可以了解到目前市面上二手房各项基本特征及房源分布情况,帮助我们进行购房决策。
2 应用技术介绍
Python网络爬虫技术
- Requests
- Beautifulsoup
Python数据分析技术
- Numpy
- Matplotlib
- Pandas
k-means聚类算法
高德地图开发者应用JS API
3 数据采集
我们需要采集的目标数据包括基本信息、房屋属性和交易属性三大类。各类信息包括的数据项如下:
- 基本信息:小区名称、所在区域、总价、单价。
- 房屋属性:房屋户型、所在楼层、建筑面积、户型结构、套内面积、建筑类型、房屋朝向、建筑结构、装修情况、梯户比例、配备电梯、产权年限。
- 交易属性:挂牌时间、交易权属、上次交易、房屋用途、房屋年限、产权所属、抵押信息、房本备件。
3.1 数据清洗
对于爬虫程序爬下来的数据并不能直接进行数据分析,需要先去掉一些“脏”数据,修正一些错误数据。
数据清洗前
数据清洗后
4 数据可视化
该阶段主要是对数据从整体上做一个探索性分析并把数据进行可视化呈现,帮助人们更好、更直观的认识数据,把隐藏在大量数据背后的信息集中和提炼出来,总结出所研究对象的内在规律。我们主要对二手房房源的总价、单价、面积、户型、地区等数据项进行分析。数据可视化分析主要步骤如下:
1)数据加载
- 数据项的行列索引的处理
- 数据类型推断和数据转换
- 缺失值的处理
2)数据转换与运算
3)数据可视化呈现
5 项目工程
**项目分享: ** https://gitee.com/asoonis/htw