Python数据分析实战-链家北京二手房价分析

本文通过Python进行链家北京二手房数据的深度分析,包括数据预处理、房源分布、价格特性分析等,揭示了北京二手住房市场的主要特征,如价格与面积、区域、楼层等因素的关系。
摘要由CSDN通过智能技术生成

Python数据分析实战-链家北京二手房价分析

一、分析目标

1、查看北京二手居民住房的分布价格情况,Part 1- 数据读取和预处理;
2、理解变量、数据选取、重复值缺失值处理,Part 2 - 北京市房源分布;
3、数量、单价、总价,Part 3 - 各城区房源分布,Part 4 - 各城区房价分布;
4、单价分布、总价分布、高价Top15小区、低价Top15小区,Part 5 - 各城区房源面积分布;
5、全市平均面积分布、各城区平均面积分布、各城区总面积分布,Part 6 - 房价与房源特性的关系;
6、房价与户型、楼层、朝向、建筑年代的关系。

二、分析具体内容

Part 1 - 数据读取和预处理
1、获取数据
数据来源于网上的链家北京二手房的信息。
在这里插入图片描述
可以看到一共有12个变量,包括:
Direction: 房屋朝向;Region/District/Gadern: 城区/街道/小区地址或者名称Id: 链家编码;Elevator: 楼是否有电梯;Floor:楼层;Layout: 房屋户型;Renovation: 装修情况;Size: 房屋大小,单位平米;Year: 房屋建筑年代;Price: 房屋总价。
2、查看缺失值以及变量类型
在这里插入图片描述
可以看到,变量类型都符合预期,其中数值型变量的类型均为int64,不需要进行进一步处理;只有Elevator有缺失值,并且缺失数量并不少,之后需要进一步处理。
3、查看重复值
在这里插入图片描述
4、处理缺失值
在这里插入图片描述
发现有6种情况:‘NaN’‘无电梯’, ‘有电梯’, ‘毛坯’, ‘精装’, ‘简装’;因为数据抓取时有串行,导致数据不正确,所以删除 ‘毛坯’, ‘精装’, ‘简装’;同时考虑楼房6层以下的无电梯,高层有电梯对缺失值进行填补,不过考虑Floor显示的只是此房源楼层而不是小区楼层,可能有误差。
5、查看数据的一般描述统计值
在这里插入图片描述
可以看到:
1)楼层分布在1到57层,75%集中在20层以下;
2)Id没有实际意义,可以去掉;
3)每套房子总价在60W-6000W之间;75%价格小于710万,所以6000W有些异常;
4)房子面积在15平-1019平之间;75%的面积小于118平,所以最高面积1019平也有些异常;
5)房子建造年代从1950到2017年。
6、异常值处理
在这里插入图片描述
可以看到:怀柔的房屋面积分布范围明显比其他城区广,具体查看数据,的确是建筑的居民楼面积较大。考虑其地理位置,数据情况和实际相符。
面积小于20的查看了,无明显异常;
面积大于800的几个房源很明显。单独查看发现其中“新华联科技大厦”1房间0卫有1019平,明显不是居民住宅,需要删除;同时考虑“X房间0卫”也看起来也不像是居民住宅;
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
进一步查看,户型分布,从逻辑上看是否有需要删除的异常值。发现有“X房间0卫”和“X室0厅”有很多;分布查看数据后发现“X室0厅”符合居民住宅情况,最后决定删除所有的“X房间0卫”。
查看户型面积分布,
在这里插入图片描述
在这里插入图片描述
7、变量选取
删除变量“Id”因为没有实际意义;增加每平米单价“PerPrice”便于之后分析;重新设置变量位置,方便查看。
在这里插入图片描述
Part 2 - 北京市房源分布
在这里插入图片描述
1)房间面积集中在0-200平以内,更大面积的房源面积变化范围大但数量很少;
2)二手房总价集中在1000W以内;
3)二手房每平米均价在4W左右最多,但均价的分布明显更加分散从3W-10W的房源数量都不算少。
Part 3 - 各城区房源分布
在这里插入图片描述
丰台、海淀、朝阳和昌平数量相近,在第一梯队;西城和大兴数量相近,在第二梯队;平谷、怀柔和密云数量非常少。
Part 4 - 各城区房价分布
1、各区域总价以及每平米均价分布
在这里插入图片描述
在这里插入图片描述
1)东西城、海淀、怀柔和朝阳的平均每套二手房总价相近,在第一梯队;除怀柔外,每平米单价也保持和总价一样的排名;怀柔的均价并不在第一梯队,结合之前的房屋面积,因为怀柔二手房的房屋面积较大,造成总价较高;
2)东西城、海淀和朝阳的二手房总价分布也非常接近,怀柔的价格分布范围较广;
3)平谷、密云、门头沟和房山4个区域的房子总价和单价都很低,尤其是平谷和密云;为什么怀柔的二手房情况要远远好于它们,有待考证。
Part 5 - 各区域房屋面积分布
按照前面对于Size的查看,以区间[0,50)、[50,100)、[100,150)、[150,200)、[200,+∞)为划分标准,将面积划分为Mini small、small、medium、big、huge五个等级,分别对应极小户型、小户型、中等户型、大户型和巨大户型。
在这里插入图片描述
1)市场上最多的二手房面积在[50,100)内,[100,150)次之;
2)从房屋总价来看,超小户型<小户型<中等户型,并且三类价格比较集中;
3)从每平米单价来看,超小户型最高,其余几类差别不算太大,结合房屋总价,可能跟供需关系有关,总价低的市场需求量大,而相对供给量较低。
Part 6 - 房价与房源特性的关系
1、房价与户型分布
2、房价与朝向分布
3、房价与装修分布
4、房价与楼层
5、房价与电梯
6、房价与建筑年限
三、小结:
通过分析可以看到,二手房市场的房源数量和房价表现出的北京特征非常明显:
1.中心城区东西城和学区房海淀朝阳房源多同时房价高;
2.房源面积集中在50-150平之内,总价均值在500-600万,<50平的房源因为房屋数量少和总价低,反而单价最高;
3.房屋的建筑时间和北京各区域发展的时间一致;
4.房价更多与区域位置和面积相关,与户型、装修和电梯等等相关性不明显。
本篇侧重于锻炼python实现数据清洗和可视化的能力,不足之处:
1.对于变量电梯、朝向、户型等的处理非常粗糙;
2.分析的问题不够明确,导致分析结论不明确。

  • 32
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Conn_w

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值