【基于Python的链家房价数据分析(代码+5k字分析报告)】

数据来源

本项目为链家爬取与数据分析

首先,基于网络爬虫技术对链家进行爬取,采集所需要的特征字段,然后,采用csv的格式进行持久化存储,最后基于pandas实现了数据的预处理与分析。

数据来源于链家web网站,基于昆明房价数据,采用了基于requests和bs4实现数据采集,其中,Requests是一个基于Apache2协议开源的Python HTTP库,具有操作容易,上手快等优点;bs4全称为Beautiful Soup,一般用于解析网页可以从html或xml文件中提取数据。bs4是一个工具箱,提供的接口接单使用起来十分人性化。
数据源为链接web网站,网页链接为https://km.fang.lianjia.com/loupan/pg,以昆明房价为基准,该页面中,每页有10条房价数据,均为昆明市某楼盘的数据,该网页作为本次项目的数据源。目标网页如图1所示。
图1 目标页面截图
首先,定义网页请求头,即User-Agent,采用headers以字典的形式存储User-Agent,其次,定义网页url,对url发起get请求,然后,获取get请求返回的数据,采用bs4对返回页面进行解析,根据标签完成数据提取。提取字段如表.1所示。

字段含义
recommend_project楼盘
house_type类型
sale_status销售状态
big_adderess大地址
small_adderess具体地址
advantage优势
average_price单价

数据统计

1)昆明最高单价楼盘和最低单价楼盘分别为:

图2 最高最低单价楼盘
2)昆明不同类型楼盘数量分别为:
图3 不同类型楼盘数量
3)优势字段词频top10分别为:
在这里插入图片描述

分类汇总及图示

1)分类汇总各类型楼盘数量柱状图

在这里插入图片描述
2)分类汇总各销售状态楼盘数量饼状图
在这里插入图片描述
从图中可看出,销售状态为售罄的楼盘数量最多,占比为69.9%,在售状态的楼盘占比为23.8%,待售状态的楼盘占比为6.3%。

3)分类汇总各类型平均单价柱状图
在这里插入图片描述
从图中可以看出,底商的平均单价最高,是价格最高的楼盘,其次为别墅,平均单价为第二高。

4)优势字段词频统计top10柱状图
在这里插入图片描述
从图中可以看出,配套齐全出现次数最多,是优势字段中的主要优势词,也可以看出,配套齐全是消费者比较关心的功能点,其次,购物方便是出现第二多的优势词,符合真实的情况。

5)前5单价的楼盘柱状图
在这里插入图片描述
6)基于透视表的不同销售状态和不同类型平均单价柱状图
在这里插入图片描述
6)词云图
在这里插入图片描述

在这里插入图片描述

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

VIT19980106

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值