简要分析上海链家9月二手房
数据来源
链接:https://link.zhihu.com/?target=https%3A//pan.baidu.com/s/1ANh0gv40Osan-A5P5_8NMA
密码:3o3w
个人主页里面有上传处理后的资源,尚待审核
分析目标
- 上海当前哪个区域二手房楼市最火?
- 上海各个区的房价水平可以分成几个梯队?
- 哪里的房子越老越吃香?
- 上海的豪宅都分布在哪?
- 有什么特点?
- 市场上哪个户型最受欢迎?
数据清洗(Excel + python)
去重
- 编号 → 查找和选择 → 定位条件 → 空值 ,删除行。
- 编号第一行 → Ctrl+Shift+↓ → 验证没有空值,并将编号转换为数值形式 → 单元格格式,数值。
- 选中编号这一列 → 数据 → 删除重复值。
提取数据
- 分列“基本属性”“交易属性”,然后每个列再用“分列”处理,提取重要信息、并重命名列名。
- 不相关或者缺失值多的列直接删除,查找和选择 → 替换 → 把空格全部去除掉。
- “室、厅、厨、卫、梯、户、经纬”用中位数或平均数填充空值,“2019 - 建成时间”= “楼龄”,Ctrl+Shift+↓选中用Ctrl+D填充全部。
- 得到比较舒服的excel表格。
python清洗
- 查看缺失值的列,“朝向、行政区、小区名称”用频数最大填充;“纬度”只有两个缺失值,用均值填充。
- drop“编号”,不相关,one-hot-encode也不方便;添加一列“heat_values”,描述房屋单价层级0-5。
数据分析(python)
folium
- 依据“heat_values”和“经纬度”,做出folium图,并输出为html,可以随时查看。描述二手房单价热力值。
参考链接:https://www.cnblogs.com/feffery/p/9288138.html

豪宅分布
- 通过探索数据,找出哪些数据水平之后的二手房比较稀有,就自行评断为豪宅。
- 自行定义豪宅:单价> 10万元/m² 或者 面积> 300m²,且总价>1000万元。

- 对比一下总房源。浦东是二手房源最多的。

- 行政区与单价的箱线图。显示了每个区二手房主要单价分布情况,静安的单价相对其他区域会比较高,浦东是被某些极端值拉高了房屋水平均价,实际大部分二手房单价还是算中等。

楼龄与总价的分布
- 楼龄的均值分布。(可以将它做成组合图去体现关系,这里没去做。)

- 总价的均值分布

最热户型
- 由subplot可知,最热户型是2室,2厅,1厨,1卫,1梯,2户。

验证总价与面积的关系
- 皮尔逊系数p=0.74,接近1,总价与面积呈现正相关关系。通常来说,价格与面积呈正相关,但也有特殊情况,最好验证下。