链家在售房屋分析

最新推荐文章于 2022-01-01 13:51:01 发布

Billy_k

最新推荐文章于 2022-01-01 13:51:01 发布

阅读量439

点赞数

本文链接：https://blog.csdn.net/Billy_k/article/details/103798755

版权

本文基于Scrapy爬取的链家2900余条成都二手房数据进行分析。发现数据存在缺失值，过滤后进行统计。结果显示，总价平均值143.65万，单价平均15685元/平米。一圈层房价最高，高新区、锦江区、青羊区领先；二圈层龙泉、双流价格受政策影响；三圈层简阳受益于天府机场。房屋总价与面积呈线性分布，大户型价格差异显著。房源以套三、套二为主，精装修占比高，电梯住宅居多。

摘要由CSDN通过智能技术生成

利用Scrapy爬取了链家的2900余条成都二手房的数据，然后基于这些数据做了一些关于房屋价格、区域、户型、房屋数量等方面的分析。

导入基本的库

import re
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

数据具体：
在这里插入图片描述
数据集中有些字段是2993行，有些字段是2895行，甚至还有2890行。这说明我们的数据中有缺失值存在，过滤掉缺失值后，所有字段都是2886行，便可以开展下一步分析工作。

查看下数据集整体统计信息，

我们看到总价的平均值是143.65万，最便宜的是32万（有可能是老房子、公寓之类的，正常），最贵的是1100万。单价方面，均价是15685元/平米，最便宜的是5129元/平米，最贵的是44846元/平米。

# 按区域分析数量和价格
df_house_count = house_df.groupby('Region')['houseId'].count().sort_values(ascending=False).to_frame().reset_index().reindex(['Region', 'Count'], axis=1)
df_house_mean = house_df.groupby('Region')['houseSinglePrice'].mean().sort_values(ascending=False).to_frame().reset_index()

f, [ax1, ax2, ax3] = p

最低0.47元/天解锁文章

Billy_k

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
链家在售房屋分析

利用Scrapy爬取了链家的2900余条成都二手房的数据，然后基于这些数据做了一些关于房屋价格、区域、户型、房屋数量等方面的分析。导入基本的库import reimport pandas as pdimport seaborn as snsimport matplotlib.pyplot as plt数据具体：数据集中有些字段是2993行，有些字段是2895行，甚至还有2890行...
复制链接

扫一扫