数据来源
本项目为链家爬取与数据分析
首先,基于网络爬虫技术对链家进行爬取,采集所需要的特征字段,然后,采用csv的格式进行持久化存储,最后基于pandas实现了数据的预处理与分析。
数据来源于链家web网站,基于昆明房价数据,采用了基于requests和bs4实现数据采集,其中,Requests是一个基于Apache2协议开源的Python HTTP库,具有操作容易,上手快等优点;bs4全称为Beautiful Soup,一般用于解析网页可以从html或xml文件中提取数据。bs4是一个工具箱,提供的接口接单使用起来十分人性化。
数据源为链接web网站,网页链接为https://km.fang.lianjia.com/loupan/pg,以昆明房价为基准,该页面中,每页有10条房价数据,均为昆明市某楼盘的数据,该网页作为本次项目的数据源。目标网页如图1所示。
首先,定义网页请求头,即User-Agent,采用headers以字典的形式存储User-Agent,其次,定义网页url,对url发起get请求,然后,获取get请求返回的数据,采用bs4对返回页面进行解析,根据标签完成数据提取。提取字段如表.1所示。
字段 | 含义 |
---|---|
recommend_project | 楼盘 |
house_type | 类型 |
sale_status | 销售状态 |
big_adderess | 大地址 |
small_adderess | 具体地址 |
advantage | 优势 |
average_price | 单价 |
数据统计
1)昆明最高单价楼盘和最低单价楼盘分别为:
2)昆明不同类型楼盘数量分别为:
3)优势字段词频top10分别为:
分类汇总及图示
1)分类汇总各类型楼盘数量柱状图
2)分类汇总各销售状态楼盘数量饼状图
从图中可看出,销售状态为售罄的楼盘数量最多,占比为69.9%,在售状态的楼盘占比为23.8%,待售状态的楼盘占比为6.3%。
3)分类汇总各类型平均单价柱状图
从图中可以看出,底商的平均单价最高,是价格最高的楼盘,其次为别墅,平均单价为第二高。
4)优势字段词频统计top10柱状图
从图中可以看出,配套齐全出现次数最多,是优势字段中的主要优势词,也可以看出,配套齐全是消费者比较关心的功能点,其次,购物方便是出现第二多的优势词,符合真实的情况。
5)前5单价的楼盘柱状图
6)基于透视表的不同销售状态和不同类型平均单价柱状图
6)词云图