Python爬取链家成都小区信息

本文介绍了一位Python爬虫初学者如何爬取链家网站上的成都小区房价信息。通过观察网站特点,利用requests和BeautifulSoup库,克服了访问限制问题,实现了自动爬取并提供了代码示例。同时强调了异常处理和优化循环的重要性。
摘要由CSDN通过智能技术生成

事先声明,本人爬虫初学者,实习时需要用到房价数据,故上阵爬虫,水平有限,若有高见,还请多多指教。

 

准备工具:Chrome浏览器、Python3.7、IPython notebook

 

爬虫流程

1.进入网站,观察网站特点

        此处强调一下,请务必不要一上来就开始码代码(很多教程里这样做,但实属大坑)。

        首先,我们要确定好自己要爬取的信息以及数据量。在本例中,笔者需要爬取网站上所有成都的小区的名字+房价。

先上图:

https://cd.lianjia.com/xiaoqu/

        算了图上不了,看起来好丑的样子,就放个URL吧,将就将就。

        显然,这个页面只推荐了30个小区,显然不够笔者塞牙缝的。

        其实这个网站很好爬,笔者点了几下各个地区的链接,神奇的事情发生了:每个地区都推荐了大量的小区,而通过勾选条件筛选框,可以把不同层次的小区分开(不选的话只有30页,并没有列举完)。

        这个时候,我们再单机右键,选择检查,使用小箭头助手查找小区名与房价信息的位置,很轻松地就找到了totalPrice与_blank两个标志性的class。

        每个页面中的信息位置找到了,接下来就是寻找url的特征了,笔者试了几次就发现了,url是由固定前缀

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值