1.项目背景:
最初计划分析城市小区的房价,
从点到面看看是什么情况,
但是数据哪里来比较准确呢?
爬虫技能走起?
坐标:西安市
小区:天地源枫林绿洲
数据:2017-1-1~9-16日
原因:带高新一中指标
2.分析步骤:
(1)爬取某网站的二手房价格:
JS动态网站,request再次失效,
祭出大杀器pantomJS,搞定!
(2)用pandas清洗数据;初步分析。
数据意料之外的注水,结构化的脏数据。
(3)取消图片相似度识别分类计划。
也明白了这个站为什么数据分析进展慢,
原因无他,为了既有的商业利益,
自己搅混水,糊住了自己的眼睛。
3.分析结果:
(1)该小区17年至今中介发布房产1838条
(2)单价最高28782元;单价最低8206元;平均单价18102.86元
(3)有图有真相:
(4)最近1天内出售的房源:计重1040套;不计重复110套
爬虫是0点以后单线程执行的,数据是一大早整理的,
1040套新发布的消息,刷新的够快,不带修改的。
(5)看看中介实力:
(6)再看看数据之最:
单价最高:28782元
单价最低:12765元
总价最高:785.0万元
总价最低:29.5万元(车位)
小结:这不是周边最高价,最高价自行搜索,西安房价低,扯蛋!
本想做点别的东西,结果数据这么脏,注了这么多水,始料未及。
还好价格趋势大体是真实的,
从年初到现在西安房价上涨30%-50%
如果你想知道任何小区二手房价的趋势,
可以关注微信公众号:海豹战队,
知友可以在本页底留言,先留先发。
转载即同意帮宣传微信公众号:海豹战队。
补充:
其实数据还是很有用,间断性采集,然后做增量分析,
就可以知道某个小区的出房量;
根据大牛结论,一个小区若有十多套出售房产,
那么价格就不是高的离谱。
方法:
将某小区的增量数据,发送到邮箱,及时提醒有新的房源。
可以用在个人买房,也可以用在中介找房,还不错哦!