自如数据爬取+高德API通勤规划

背景

个人觉得最影响合租居住体验因素就是室友,自如有个很好的点就是可以看到房子里其他室友的性别、星座和职业。但是却没有相关的筛选功能,于是便自己写了个爬虫,把整个深圳市的自如在租房源数据爬了个遍,把自己所关心的小区位置,地铁距离、租金、室友和楼层面积等信息收集起来。

大致效果如下,可以很方便得筛选自己喜欢的房子。

最近有了解到高德API有路径规划,还可以将房子和到公司的路程进行通勤规划。

用到包

  • 爬取数据:Requests, BeautifulSoup
  • OCR图像识别:Pytesseract,Tesseract-OCR(爬自如的一个坑点,自如的租金是由一个随机数字排列再重新组合的)
  • 将数据自动生成Excel:Pandas
  • 通勤规划:高德API(需要去高德开放中心申请key才能使用)

解析自如页面信息

深圳自如首页的URL是http://sz.ziroom.com/z/,同理,上海的URL是http://sh.ziroom.com/z/。后面的p1、p2指的是页码,通过一个for就可以遍历整个深圳自如的租房。

def get_page_info(page_num):
    zr_url = 'http://sz.ziroom.com/z/p' + str(page_num) +  '/'
    response = requests.get(zr_url).text
    zr_soup = BeautifulSoup(response, 'html.parser')


if __name__ == '__main__':
    for page_num in range(1,max_page_num+1):
        get_page_info(page_num)
    to_excel()

找到URL,用BeautifulSoup解析出来就好了。

解析房源信息

除了租金外,其他信息都是常规选择好节点提取信息就好了。

  • 房源详情url

房源的URL有很多出节点都有,随便找个节点解析出来就好了。

def
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值