温馨提示:文末有 CSDN 平台官方提供的学长 QQ 名片 :)
1. 项目简介
本项目利用 python 网络爬虫抓取某租房网站的租房信息,完成数据清洗和结构化,存储到数据库中,搭建web系统对租房的面积、朝向、有无地铁、公共交通工具等价格影响因素进行统计分析并可视化展示。
基于Python的租房价格数据分析与预测系统
2. 功能组成
3. 租房信息爬虫
利用 python 的 request + beautifulsoup 从某租房平台抓取深圳(其他城市修改相应的租房网址即可)的租房数据:
def parse_zu_fang_divs(all_zu_fang_divs):
house_infoes = []
for zu_fang_div in all_zu_fang_divs:
try:
# 标题
title = zu_fang_div.select('b.strongbox')[0].text.strip()
props = zu_fang_div.select('p.details-item.tag')[0].text.strip().split(' ')[0].strip()
# 室厅,面积,所在楼层
shiting, mianji, louceng = props.split('|') # 2室1厅|93平米|中层(共26层)
address_tag = zu_fang_div.select('address.details-item')[0]
address = address_tag.text.strip()
xiaoqu, address = address.split('\n')
# 小区名称
xiaoqu = xiaoqu.strip()
address = address.strip()
qu, data2 = address.split(' ')
# 小区所在一级区,二级街道
first_qu, second_jiedao = qu.split('-')
tags = zu_fang_div.select('p.details-item.bot-tag')[0].text.strip()
# 标签
tags = tags.split('\n')
# 租金
price = zu_fang_div.select('div.zu-side')[0].text.strip()
house_infoes.append({
'小区名称': xiaoqu, '小区所在一级区': first_qu, '二级街道': second_jiedao,
'室厅': shiting, '面积': mianji, '所在楼层': louceng, '标签': tags, '租金': price
})
except:
pass
return house_infoes
4. 基于大数据的城市租房信息可视化分析系统
4.1 系统注册登录
4.2 租房小区名称关键词抽取并词云分析
4.3 城市不同区域租房数量分布情况
4.4 城市不同区域租房房价分布散点图
4.5 不同地区租房房源数与平均租房价格的分布情况
4.6 城市各区域租房房价格分布箱线图
4.7 深圳租房单价最高Top20
4.8 房价影响因素分析
4.8.1 小区所在一级区域
4.8.2 租房面积
4.8.3 房屋朝向
4.9 基于决策树算法的房租预测模型
构建决策树机器学习算法,利用采集的租房数据进行模型训练和验证,集成到web系统中,实现交互式房租预测:
5. 结论
本项目利用 python 网络爬虫抓取某租房网站的租房信息,完成数据清洗和结构化,存储到数据库中,搭建web系统对租房的面积、朝向、有无地铁、公共交通工具等价格影响因素进行统计分析并可视化展示。
欢迎大家点赞、收藏、关注、评论啦 ,由于篇幅有限,只展示了部分核心代码。
精彩专栏推荐订阅: