数据来源于和鲸社区数据集https://www.heywhale.com/mw/dataset/60ec6929be5f090017629a30/file
数据结构如下所示:
一共有6个字段,分别是地区,标题,位置,小区,总价,面积
我会用Excel,Python分别做一遍
我先用Excel来做
先将数据下载下来,放在Excel中,如下所示:
将title列分列
发现title列除了整租还有小区名字
将title列不是整租的移到C列,B列全部填充为整租
将C列分列为小区名字,房型,朝向
C列和G列一样,可以删掉一列
将总价列移到最后
area列有的地方没有区字,需要统一
room有空值,数据有1万行,空值有13行,选择删掉影响不大
增加一列为均价
地区的特征分析
上海市各大区房源数量对比我们发现浦东新区的房源最多,是第二名闵行区房源数量的2倍还要多
上海各大区房源均价对比
上海各大区房源总价箱线图
大小的特征分析
租房面积的分布情况
每个区面积和价格的气泡图
布局特征分析
房屋户型和数量关系
朝向和数量的关系
分析结果
租房均价:黄浦区,静安区,长宁区,徐汇区,市区的租房均价最高
租房数量:从数量统计上来看,浦东新区房源数量最多有2508套,比第二名闵行区的2倍还要多。
再用Python做一遍
先读取文件
将title列分列,删除重复的列
用Tableau做一遍
地区的特征分析
上海市各大区房源数量对比
我们发现浦东新区的房源最多,是第二名闵行区房源数量的2倍还要多
上海各大区房源均价对比
上海各大区房源总价箱线图
大小的特征分析
租房面积的分布情况
每个区面积和价格的气泡图
布局特征分析
房屋户型和数量关系
朝向和数量的关系