python找房源_如何用Python找到房源信息(2)

本文介绍如何使用Python分析房源数据,选择离工作地最近的区域,并对区域内房源进行深入分析,包括价格、面积、楼层和房屋类型等,帮助做出更经济的租房决策。
摘要由CSDN通过智能技术生成

主要是距离,关于距离,有两种选择方式,一种是先选出离你上班地最近的几个区域,然后再在该区域内具体选择;另一个是可以设定你可以接受的通勤距离,然后以这个距离作为条件,在小于等于这个距离内进行筛选。

我们这里着重以第一种为主,先选择距离最近的几个区域,然后在这几个区域内进行选择。

因为距离是按 Region 来进行计算的,而表是按 Name 来统计的,所以要想计算出距离最近的 Region,需要先把 Region 和 Distance 部分提取出来,并合并成一个 DataFrame。

c1aab73e99998a34cac81720f0fe1d1d.png

0d592796cb0a0decf4495939ed2a2d96.png

652c8312869c615d60d6fc3256b00d72.png

2634167afd3e032b9837cd18de7013a1.png

3d5f23a14b65bf9dbf7b0c3d637e183f.png

0a75953ff32c5b9ba51f4cebb2643cdd.png

可以看到,Region=“望京”距离最近,所以我们重点在该区域内选择,接下来具体看看该区域内租房情况。

1fe54527d99903d9228cb1ee0b45eb7b.png

852bcdedb3ef78caf98061099633a409.png

通过上表可以看到在望京区域总共有 101 套房源,接下来对这 101 套房源进行深入分析。

63c1452716f956aed094a7d96e73086b.png

fbee6ad37fdc35c089154d6d87c26113.png

数据概览,先对该区域的租房整体情况有个认识,看到 Price 指标的下界为 5000 左右,上界接近于 30000,中位数为 10000 出头(有没有感觉到好贵哈哈哈哈),但是我们也看到有一个大于 80000 的超级异常值,我们利用截尾均值对他进行替代。

关于房屋大小,中位数为 100 平,这与 Price 中位数正好可以对应,折算下来相当于 1 平 100 大洋,在与那些 10 平左右的合租房需要 2000+ 大洋比一比,是不是觉得还是 100 平 10000 大洋便宜哈。

所以论一平米的价格的话还是整租更便宜。

先找出那个大于 80000 的异常值具体值是多少,然后进行值替换。

9b57f0a658c692c1d4de9b6641ca4e3b.png

89eaff2fe42fb4731b9dbaa1710c8b74.png

7aed1a43831c27eab9718dcc87e27f05.png

277727d81a3ff040fbf118ffc0280cff.png

42ef75859543afe26d9c42f2289a3f1d.png

这是将 Price 异常值处理以后得到的箱型图,看起来就比较规范了哈。

b6dedd9dc77c9a00c25d3b0b11e69ee2.png

aa44be41cdd21879164f6eb1992aa011.png

通过上图可以看出:中楼层和高楼层的房源绝对数量基本持平,高出低楼层数量一半。

房屋修建时间也是 2003 年以后的居多,这就和前面的楼层类型可以对应上了,在刚开始的时候(2003 年以前)大部分房子都是低楼层,随着时代的进步,科技的发展,人员的增多,楼层的数量和房屋的数量也随之增加。

房屋类型上的 Top3 类型分别为:2 室 1 厅、3 室 2 厅和 1 室 1 厅。

f55701985f9cfbd5fc305e5e289d198e.png

1d96eceaa8b4e8a8235f3b568c8c7a5b.png

通过上图可以看出,随着时间的推移,2003 年以后的房子的 Price 要明显高于 2003 年以前的,如果要是对价格比较敏感,可以考虑 2003 年以前的房子。

808d33e94a02cbfb8a532de002e66d7d.png

df858297dfccba86abed4c2364b23a89.png

随着房屋类型的升级,价格也是随之升高,但是我们也发现,有一些三室房子的价格(下边界)要低于两室的价格的,如果对房间数量和价格都有要求的可以考虑这部分房源。

648ac43f6e19428bb969b211a28d0272.png

9f73a0a6f7988f3d17e231d6572013e3.png

通过上图可以看到三个楼层的价格下界基本持平,但是中楼层的中位数和上界价格是要明显高于其他两个房型的,这也很正常,中楼层相比于其他两个楼层的房屋是最宜居的啦,价格贵也正常。

当然了,对于现在租房都很困难的环境下,哪还考虑什么宜居,当然是挑价格低的房型。

3546779cdf896a1fcd1db83d0bd7cd18.png

f9e199ce5421a12b4017d9d135318e72.png

按 PV 进行降序,我们可以看出哪些房源是比较受欢迎,这些房源都有啥特征。

29714683f5be31f4875ecb1fcee64b5b.png

a6733640c7ec4073d7257ad75cb869d2.png

从图中可以看到,低楼层的房源数量不是最多的,但是看房次数却是最多的(最受欢迎的),可能是低楼层价格低的原因吧。

2003 年和 2007 的房源 PV 最高,这和该年代的房源绝对数量基本维持一致;两室一厅的户型最为火爆;在价格方面 10000 以下的房源比较受欢迎。

603264ec44ee3c175576ee4e63dd66cf.png

e769bbb4958b952e880cc49101391192.png

结论

通过上面的分析我们可以得出一些参考:

2003 年以前的房源的价格是要低于 2003 年之后的,对价格敏感的可以考虑 2003 年以前的房源。

有一些三室的房子价格是低于两室的,如果对房间数量和价格都有要求的可以考虑这部分。

中楼层的价格整体上是要高于低楼层的,但是还有一部分是要比低楼层低,而且通过从 PV 最高的楼层来看,低楼层的火爆程度要比中楼层高,所以可以寻找那些不那么火爆但是价格还低的中楼层。

如果希望单位面积价格最低,还是整租比较合适。

注:本次的数据为链家网的整租房源信息,非合租信息,所以你会看到价格都很高。

作者:张俊红

原文来自微信公众号:51CTO技术栈

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值