链家二手房价分析

本文全部内容可在GitHub获取:
https://github.com/Paradiseeee/Home/blob/master/article01_DA4B_LSZ.md
欢迎关注,欢迎找茬,刚开始写文章,以后会分享更多的学习心得,与大家共同进步!

一、问题背景

最近,深圳的一个新楼盘深业中城开盘,备案价高达 13.1 万的豪宅项目,光认筹就需要缴纳 500 万的诚意金,在别的城市已经可以全款购买一套房了。单看新盘的价格,深圳早几年就已经超越北京稳居榜首了。但是最近中国房价行情网的最新数据显示,10 月份深圳二手房均价为 65,364 元/㎡,环比增长 1.07%,意味着深圳的二手房价首次超越北京。以下表格来自中国房价行情网的报告:
中国房价行情网报告

二、分析思路

这里我们的主要目标是了解深圳的二手房市场的各方面详细情况,并且与北京的数据和深圳的历史数据进行对比。刚好在10月份的时候,在看到这个报道之前,做过一次关于深圳楼市的分析研究,获取了相关的数据。在这里可以分别对深圳和北京11月份进行一个截面数据的分析,再对深圳10月份和11月份的数据进行面板数据的分析。

三、数据获取

根据分析需求,我们需要获取两地楼市的价格,具体分布等信息,这些信息在网上都有公开的数据。如果需要得到严谨的统计分析结果,则需要获取市场上全面的数据,而我们这里更关注的是细节的分布,所以只取一部分市场数据进行分析。通过浏览网络上的信息,发现链家二手房网站上的信息符合需求,既有足够多的商品房数据,也可以轻松获得。
链家网页源码
首先通过模拟 HTTP 请求,自动遍历以上商品展示页中的信息,返回的源码文本中包含标题、行政区域、地铁、户型、面积、朝向、装修、楼层,等字段的信息。然后使用正则表达式或者 css 选择器、xpath 解析各个字段的信息。再进行规整化字段的取值,空值的填充和清除等清洗步骤,获得最终的数据。

四、数据预览

得到的数据分别写进数据库和文本文件,方便后面的研究分析。首先利用 Navicat 的分析引擎可以得到数据分布的预览。图中给出了区域、面积、单价三个重点字段的分布情况,可以看到深圳龙岗区和北京朝阳区各自占了两地近三成的房源数量。而面积字段北京较深圳集中趋势更明显。单价的分布基本一致。
data_view
单纯看图获取的信息不够多,更好的方法是使用交互式的报告预览数据(获取预览报告)。这里使用 pandas-profiling 可以一键生成交互式的 HTML 文件。如果结合 pandoc 也可以生成 pdf 或 markdown 格式的数据预览报告。或者使用 Excel 的数据透视表可以更加具体地交互式地研究每一个字段的分布以及相关统计指标。
数据透视表

五、数据可视化

通过预览数据发现,获取到的数据包括面积、单价、总价、行政区域、地铁站等重点信息。接下来对数据进行可视化分析,通过更多的图表直观地洞察数据。

5.1 北京深圳数据总体对比

首先来看我们最关心的价格的情况,这里使用条形图显示两地不同区域的总价和单价的均值分布。从下图可以看到,深圳南山区的总价均值高达 1122.6 万元,单价均值超 9万。而北京方面的“老大”西城区总价均值只有 800 万,但是单价均值高达 11.4 万。
在这里插入图片描述

5.2 价格详情

接下来进一步查看更细节的价格分布,下面的堆积条形图可以看到不同区域的单价分布以及总的分布。通过绘出各区域的单价密度图,可以更明显地看到不同区域的价格分布的差异。
单价详情
从上图可以看到,两地的单价中位数都位于5.5万左右。通过分区域的密度图更清楚地看到,北京单价中位数超10万的区域有东城区和西城区,并且东城区的分布更加集中。紧跟10万界线的有海淀区,以及接近并列的朝阳区和丰台区。而深圳单价均值最高的南山区只有9万多,但是分布更为差异化,部分离群值甚至去到25w+。总价均值的分布同样有以上特点。下面通过箱形图展示了两地各行政区总价的分布情况。
总价详情
上面是标准的箱形图,散点表示超出1.5倍四分位距离的观测点。就深圳南山区来说,存在几个接近八千万的离群观测。仔细看一下这里还不止一个“异常值”,而是一连串,于是保留这些观测。后面再具体看一下这些离群点的数据。

接下来具体看一下面积的分布以及与总价的关联情况。首先从左列的面积-总价散点图中可以看到,区域的聚类趋势十分明显,也就是说区域跟单价有较强相关关系。在右边的图中对两地分别选出了几个排行靠前的区域进行线性回归拟合。可以看到北京东城区和西城区的总价方差随面积增大迅速增大,深圳各区总价方差随面积的变化相对不太明显。
总价-面积

5.3 其他字段信息的对比

看完了价格方面的分布和关联情况,接下来看一下其他字段的数据给我们传递了什么有价值的信息。从Excel数据透视表可以看到,每一个区域又派生出多个地铁站的类别,是影响区域内分布情况的主要因素。因此可以以 地铁站 划分商圈,具体看一下不同商圈的分布情况。下图可以看到不同地铁商圈的价格分布,并着重标出了单价名列前茅的商圈。
北京地铁商圈单价对比
深圳地铁商圈单价对比
可以看到北京地铁站的数量比深圳大很多。据了解,北京开放运营的共有22条地铁线路,约400个地铁站。相比之下深圳只有8条线路,约200个站点。图中标出了单价排行靠前的地铁站。北京最高的德胜门单价均值达到14.6w,单价均值12w+的地铁站商圈共有10个。而深圳12w+的地铁站商圈仅有3个,虽然数量少,但是最高的深圳湾高达15.8w。

看完这些寸土寸金的商圈,再来“围观”一些高端的土豪楼盘。这里找到了南山区单价分布图中“捅破”坐标轴的“罪魁祸首”,香山美墅一期。紧随其后的汀兰鹭榭花园单价也超过了25w。相比之下北京的数据比较“温和”。好奇心的驱使下,在MySQL中把它select出来看一下。可以看到都是一些大面积的别墅,鄙人如果有幸进去参观一下都此生无憾了。
超高端楼盘
土豪楼盘详情
上面那些“前后大花园”、“室内电梯”、“天然氧吧”、“喝茶看海”,与我们大部分人都无关了。但是可以发现商品标题里展示出来的,自然都是迎合客户需求的内容。因此接下来通过词云图对标题字段进行可视化,看一下吸引客户的,或者说消费者最关注的,都有哪些方面。
词云
上面左图是北京的情况,可以看到主要有朝向、户型、建成年份以及装修等方面。右图是深圳的情况,除了常见的一些字眼,我们看到“安静”也是一个高频词。看来购房者对环境安静要求还是比较高。本人现在住的地方,周边环境的噪音感觉还是比较严重的,不知道这是不是深圳的普遍情况。

从上面词云中发现大家都比较在乎户型和朝向,那就来看一下户型和朝向的分布情况。下图分别是北京和深圳的户型和单价关系,颜色深度表示该户型的数量。可以看到北京的户型比较集中,约一半集中在2室1厅的户型,也就是标准家庭住房的配置,均价稍大于6w。而深圳的户型选择性更多,分布更复杂,主要有2室1厅和3室2厅,均价也在6w左右。还有非常夸张的9室5厅,是一些大面积的复式别墅。
北京户型价格与计数分布
深圳户型价格与计数分布
朝向方面,从下图可以看到两地的朝向主要都分布在南北朝向,或东南和西南,这也符合总体的偏好。虽然朝向是选房时的首要因素之一,但是通过相关分析,发现朝向跟价格并没有显著的相关性,从图中也可以看到,反而两地都是一些冷门的朝向价格最高,应该是由于总数比较小出现的虚高。
朝向分布
另外在词云图中还看到,关于年份的关键词出现的频率是比较高的,主要原因是政策上满五免税。这里对不同年份房屋的分布做一个多项式平滑处理,看一下不同年份的分布趋势:
年份趋势
如果把这里的二手房数量,作为房地产市场库存的参考指标,可以看到北京的存量主要分布在2006年前后,深圳的存量主要分布在2010前后。两地占市场份额最多的分别是朝阳区和龙岗区。

5.4 深圳11月份二手房数据环比分析

文章开头中国房价行情网给出了10月份的数据,这里我们分析一下11月份的数据。由于这里数据来源与中国房价行情网不同,因此不将两者进行具体比较,只作为参考。在链家二手房的数据中,10月份深圳二手房的单价均值为61326元,与中国房价行情网公布的数据(65364元/平米)还是有较大差异。

从下图中可以看到,11月份深圳二手房价总体环比上涨1.67%。具体到每个区域可以看到,最高的光明区环比上涨约16个百分点,但是光明区在所有二手房中占比较小,与大鹏新区加起来占比还不到1%。而占市场总量最大的龙岗区环比上涨0.55%。南山区在价格高位依然达到2.47%的环比增长,以这个趋势,单价均值将在3个月后突破10w。当然准确的趋势还需要分析更长时期的历史数据才能得出。
深圳11月环比

六、结果分析

房子有两种功能,一种是居住效用功能,一种是流动性功能。一方面作为生活的刚性需求,一方面作为市场上流动的资产,其价格一直是关乎民生以及金融市场运作的一个重点话题。通过这份分析报告可以直观的认识到北京和深圳两地的房价水平。首先聚合来看,两地的房价均超过六万每平米,总价均值分别为六百万和五百万。根据国家统计局今年发布的数据,各行业中薪资最高的信息技术服务业,年薪约为15w,一套中规中矩的住房,就相当于五十年的工资了。并且增速上,信息技术服务业2019年薪资同比上涨10.9%。而根据相关的统计,近五年北京二手房房价年均上涨14.3%,远大于薪资上涨速度。而且这还是相对于目前最赚钱的行业来说的,这意味着工薪阶层这个群体在北京深圳等大城市是无法解决住房这个刚需的。

但是在另一方面,住房空置率却一直居高不下。按照通用的国际经验数据,当商品房空置率达10%以上时,便会形成较为严重的泡沫经济。2008年金融危机时,美国的住房空置率也只有10%。虽然国家统计局没有相关的统计数据,但是根据相关调查,普遍认为中国的住房空置率已经超过20%。金融市场牵一发动全身,普通人不可能做到全面地分析。但是仅作为居住效用的商品,房价显然严重偏离了均衡点。还是需要更强力的政策,优化金融市场中的信贷扩张、优质资产短缺,等相关问题,真正做到“房住不炒”。

七、总结

本文对比分析了北京和深圳的二手房市场,包括房价以及房屋的各种特征的分布和关联情况。并对深圳11月份和10月份的数据进行了环比分析。最后唠几句本人对楼市的浅显拙见。分析中存在以下可以进一步改进的地方:

  • 整个分析过程建立在链家二手房网站上的信息上,数据来源不够广,不够全面;可以获取更全面的信息,包括大部分的主流平台上的商品数据,以及多个城市的数据进行对比。
  • 缺少分析思路,分析角度不够深入,只是在“看”数据,没有达到真正的洞察;需要更清晰的指标,或者更大规模的数据进行模式分析。
  • 可视化图表选择方面需要更加精确,首先明确需要表达的观点,再用最合适的图表精确表达。

END

  • 0
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
你在学习Python数据分析的时候,是否遇到过在这些问题? 别慌!这些都是数据科学入门常见问题。从入门到上手再到解决实际问题,数据科学看似复杂,但如果你掌握了正确的学习方法,完全可以极速入门。 【职场人进阶必备  数据分析/挖掘一点通】 如今的职场上,90%以上的岗位都会涉及数据问题。 以产品文案岗位为例,在一个新产品推向市场之前,文案需要考虑: 此时,可以关注一下市场上已有的相关产品推广数据,如:哪些文案打开率更高?哪些文案转化更好?目标用户的购买习惯如何? 以此作为下一步工作开展的依据,对产品文案工作者来说,可以少走很多弯路。 学会数据分析/挖掘,等于站巨人的肩膀上工作,轻松且高效。 【爬虫、数据分析、数据挖掘知识点三合一】数据问题一网打尽 本课程将知识点悉数融入实战项目,不空谈语法,帮助学员在实践中获取知识,目标是:让学员能自主完成数据采集、数据分析与数据挖掘。 学习完本课程,你可以熟练掌握: 【实战案例超实用,轻松拥有“睡后收入”!】 本课程以股票案例为主线,串联爬虫、数据分析以及数据挖掘多个知识点。 通过实战案例演练,你可以全面掌握股票收益的分析和预判方法,在收获新技能的同时,也有机会获得“睡后收入”! 四大优势: 三重权益:

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值