利用Scrapy爬取了链家的2900余条成都二手房的数据,然后基于这些数据做了一些关于房屋价格、区域、户型、房屋数量等方面的分析。
导入基本的库
import re
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
数据具体:
数据集中有些字段是2993行,有些字段是2895行,甚至还有2890行。这说明我们的数据中有缺失值存在,过滤掉缺失值后,所有字段都是2886行,便可以开展下一步分析工作。
查看下数据集整体统计信息,
我们看到总价的平均值是143.65万,最便宜的是32万(有可能是老房子、公寓之类的,正常),最贵的是1100万。单价方面,均价是15685元/平米,最便宜的是5129元/平米,最贵的是44846元/平米。
# 按区域分析数量和价格
df_house_count = house_df.groupby('Region')['houseId'].count().sort_values(ascending=False).to_frame().reset_index().reindex(['Region', 'Count'], axis=1)
df_house_mean = house_df.groupby('Region')['houseSinglePrice'].mean().sort_values(ascending=False).to_frame().reset_index()
f, [ax1, ax2, ax3] = p