python招生数据分析_运用python进行入门数据分析

Python入门数据分析实战

上海二手房房价分析

一、分析思路

影响二手房房价的因素导入数据

本数据来自链家网上海二手房交易市场

数据清洗

处理缺失值:‘装修’这一列有缺失值,(49688-49623)/49688*100%=0.13%,0.13%的缺失率,缺失率比较小。一般缺失值可以用零补充,平均值、中位数补充,或者经过模型判断进行相应补充。这里我们用出现频率最高的进行填充。

‘精装’出现频率最高,把空白值换成精装。

仔细观察,全是字符型,而面积,总价,单价都是数值型,成交日期为时间型,下面我们就转换类型。

面积变为数值型

总价变为数值型

单价变为数值型

交易日期变为日期型

观察有没有异常值

面积不能是0,删除面积是0的

数据分析及可视化

1.区域特征分析(对于区域特征,我们还可以分析不同区域房价和数量的对比)

二手房均价:静安区的房价最贵均价大约6.3万/平,因为静安区上海中心城区,并且建立了双高区(高品质的生活居住区,高品位的商业商务区),其次是黄浦区大约6万/平,然后是长宁区大约5万/平,其它均低于5万/平。

二手房房数量:从数量统计上来看,目前二手房市场上比较火热的区域。浦东区二手房数量最多,超过1000套,挨着中心城区。然后是闵行区也挨着中心城区。挨着中心城区,需求量大,价格相对来说比较便宜。

二手房总价:通过箱型图看到,各大区域房屋总价中位数都都在1000万以下,且房屋总价离散值较高,黄埔和静安差不多,都达到了600万。

2.房间大小特征分析

房间大小分布:

通过 distplot 和 kdeplot 绘制柱状图观察房间大小特征的分布情况,属于长尾类型的分布,这说明了有很多面积很大且超出正常范围的二手房。

房间大小与价格的关系:

通过 regplot 绘制了房间大小和价格之间的散点图,发现房间特征基本与价格呈现线性关系,符合基本常识,面积越大,价格越高。

但是有一点异常点,为什么面积介于400平-500平的房价相差这么大,这里 我们看一下400平-500平房屋情况。

我们可以看到400平-500平房屋总价的两个极值都是浦东的花木区,但是浦东花木区房价普遍高,所以最小值可能是爬取的错误数据。

3.户型特征分析

这个特征真是不看不知道,各种厅室组合搭配,竟然还有九室两厅,四室零厅等奇怪的结构。其中两室两厅占大部分,其次是两室一厅,然后是三室两厅和一室一厅。

4.装修情况特征分析

先看看装修情况

精装的二手房最多,其次是中装。从价格来说虽然说豪装的数量最低,但是豪装的价格最高,然后是精装,看来大家对精装修的房子需求量比较大,豪装应该算是一个特例。

楼层特征分析

先看看哪种层数的楼房多

局部图片

再观察楼房层数与房价的关系

局部图片

可以看到,6层二手房数量最多,但是单独的楼层特征没有什么意义,因为每个小区住房的总楼层数都不一样,我们需要知道楼层的相对意义。另外,楼层与文化也有很重要联系,比如中国文化七上八下,七层可能受欢迎,房价也贵。当然,正常情况下中间楼层是比较受欢迎的,价格也高,底层和顶层受欢迎度较低,价格也相对较低。所以楼层是一个非常复杂的特征,对房价影响也比较大。

总结

1.上海市区域对二手房价格影响比较大,尤其是中心城区(静安,黄浦,长宁,徐汇)房价挨着普遍高,挨着中心城区的地区(浦东,闵行)房价比较低,并且这里的二手房数量也多,比较适合居住。

2.房的面积基本上和价格成线性相关,面积越大,价格越高。但是面积太大也不好,最受欢迎的面积是100平米左右的房间,建议开发商多开发100平米左右房屋。

3.两室两厅,两室一厅比较受欢迎,还有精装房屋销量也会很大,但是价格和豪装差很多。中间楼层的价格比较高,但是底层的楼房数量比较多。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值