Python入门数据分析实战
上海二手房房价分析
一、分析思路
影响二手房房价的因素导入数据
本数据来自链家网上海二手房交易市场
数据清洗
处理缺失值:‘装修’这一列有缺失值,(49688-49623)/49688*100%=0.13%,0.13%的缺失率,缺失率比较小。一般缺失值可以用零补充,平均值、中位数补充,或者经过模型判断进行相应补充。这里我们用出现频率最高的进行填充。
‘精装’出现频率最高,把空白值换成精装。
仔细观察,全是字符型,而面积,总价,单价都是数值型,成交日期为时间型,下面我们就转换类型。
面积变为数值型
总价变为数值型
单价变为数值型
交易日期变为日期型
观察有没有异常值
面积不能是0,删除面积是0的
数据分析及可视化
1.区域特征分析(对于区域特征,我们还可以分析不同区域房价和数量的对比)
二手房均价:静安区的房价最贵均价大约6.3万/平,因为静安区上海中心城区,并且建立了双高区(高品质的生活居住区,高品位的商业商务区),其次是黄浦区大约6万/平,然后是长宁区大约5万/平,其它均低于5万/平。
二手房房数量:从数量统计上来看,目前二手房市场上比较火热的区域。浦东区二手房数量最多,超过1000套,挨着中心城区。然后是闵行区也挨着中心城区。挨着中心城区,需求量大,价格相对来说比较便宜。
二手房总价:通过箱型图看到,各大区域房屋总价中位数都都在1000万以下,且房屋总价离散值较高,黄埔和静安差不多,都达到了600万。
2.房间大小特征分析
房间大小分布:
通过 distplot 和 kdeplot 绘制柱状图观察房间大小特征的分布情况,属于长尾类型的分布,这说明了有很多面积很大且超出正常范围的二手房。
房间大小与价格的关系:
通过 regplot 绘制了房间大小和价格之间的散点图,发现房间特征基本与价格呈现线性关系,符合基本常识,面积越大,价格越高。
但是有一点异常点,为什么面积介于400平-500平的房价相差这么大,这里 我们看一下400平-500平房屋情况。
我们可以看到400平-500平房屋总价的两个极值都是浦东的花木区,但是浦东花木区房价普遍高,所以最小值可能是爬取的错误数据。
3.户型特征分析
这个特征真是不看不知道,各种厅室组合搭配,竟然还有九室两厅,四室零厅等奇怪的结构。其中两室两厅占大部分,其次是两室一厅,然后是三室两厅和一室一厅。
4.装修情况特征分析
先看看装修情况
精装的二手房最多,其次是中装。从价格来说虽然说豪装的数量最低,但是豪装的价格最高,然后是精装,看来大家对精装修的房子需求量比较大,豪装应该算是一个特例。
楼层特征分析
先看看哪种层数的楼房多
局部图片
再观察楼房层数与房价的关系
局部图片
可以看到,6层二手房数量最多,但是单独的楼层特征没有什么意义,因为每个小区住房的总楼层数都不一样,我们需要知道楼层的相对意义。另外,楼层与文化也有很重要联系,比如中国文化七上八下,七层可能受欢迎,房价也贵。当然,正常情况下中间楼层是比较受欢迎的,价格也高,底层和顶层受欢迎度较低,价格也相对较低。所以楼层是一个非常复杂的特征,对房价影响也比较大。
总结
1.上海市区域对二手房价格影响比较大,尤其是中心城区(静安,黄浦,长宁,徐汇)房价挨着普遍高,挨着中心城区的地区(浦东,闵行)房价比较低,并且这里的二手房数量也多,比较适合居住。
2.房的面积基本上和价格成线性相关,面积越大,价格越高。但是面积太大也不好,最受欢迎的面积是100平米左右的房间,建议开发商多开发100平米左右房屋。
3.两室两厅,两室一厅比较受欢迎,还有精装房屋销量也会很大,但是价格和豪装差很多。中间楼层的价格比较高,但是底层的楼房数量比较多。