链家在售房屋分析

本文基于Scrapy爬取的链家2900余条成都二手房数据进行分析。发现数据存在缺失值,过滤后进行统计。结果显示,总价平均值143.65万,单价平均15685元/平米。一圈层房价最高,高新区、锦江区、青羊区领先;二圈层龙泉、双流价格受政策影响;三圈层简阳受益于天府机场。房屋总价与面积呈线性分布,大户型价格差异显著。房源以套三、套二为主,精装修占比高,电梯住宅居多。
摘要由CSDN通过智能技术生成

利用Scrapy爬取了链家的2900余条成都二手房的数据,然后基于这些数据做了一些关于房屋价格、区域、户型、房屋数量等方面的分析。

导入基本的库

import re
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

数据具体:
在这里插入图片描述
数据集中有些字段是2993行,有些字段是2895行,甚至还有2890行。这说明我们的数据中有缺失值存在,过滤掉缺失值后,所有字段都是2886行,便可以开展下一步分析工作。
在这里插入图片描述
查看下数据集整体统计信息,
在这里插入图片描述
我们看到总价的平均值是143.65万,最便宜的是32万(有可能是老房子、公寓之类的,正常),最贵的是1100万。单价方面,均价是15685元/平米,最便宜的是5129元/平米,最贵的是44846元/平米。

# 按区域分析数量和价格
df_house_count = house_df.groupby('Region')['houseId'].count().sort_values(ascending=False).to_frame().reset_index().reindex(['Region', 'Count'], axis=1)
df_house_mean = house_df.groupby('Region')['houseSinglePrice'].mean().sort_values(ascending=False).to_frame().reset_index()

f, [ax1, ax2, ax3] = p
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值