大数据分析01——成都二手房(平均价格)

背景
前段时间很多成都的朋友准备买房,遇到了各种问题。有的交了订金,房东发现还有机会涨价,宁愿交2w的违约金,也要再等一等房价涨起来;有的没有2年社保或户口买房;现在人才落户放宽后,有机会买房了,却又发现很多地方需要全款。那么现在成都二手房的情况究竟怎么样了?到底该买哪个区的呢?

思路

  1. 使用爬虫从链家爬取二手房的数据

  2. 将数据导入可视化分析平台

  3. 制作透视图

这里使用的可视化分析平台是公司内部开发平台,我直接拿来用用看下能否做出什么有意思的图出来。

结果
虫子爬取到的单条数据:

{'area': 85.21,
 'average_price': '17017',
 'city': '锦江',
 'community': '翡翠城四期  ',
 'focus_num': '117',
 'house_id': '106100521101',
 'last_buy_time': '2011-02-16',
 'link': 'https://cd.lianjia.com/ershoufang/106100521101.html',
 'location': '104.102412,30.618452',
 'model': ' 2室1厅 ',
 'price': 1450000.0,
 'publish_time': '2017-07-27',
 'title': '翡翠城四期 套二 有装修 有阳台',
 'watch_num': '81'}

对虫子进行了升级,能够拿到地理数据和发布时间了。

成都二手房每平方米的平均价格:
成都二手房

遇到的问题
首先我在知乎上找到一个分析北京房价的虫子,于是我下载下来准备用来收集成都的,但是却发现很久没维护,虫子跑不动了,于是我改了改,让虫子重新跑起来。虫子在爬取链家数据的时候,当爬取到3000多条的时候,遇到了链家的反爬虫策略,让输入验证码,我也就爬一次看看,并不想浪费太多的时间在验证码的识别上。网上有朋友告诉我使用和浏览器一样的hears和cache就可以,于是我试了一下,发现果然可行。

下面是我的虫子的地址,感兴趣的朋友,可以下载下来试试:
https://github.com/BlackKnigh...
但是,hears和cache的那部分代码因为在笔记本上,没有来得及push。估计下周一去push。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值