Python爬取链家成都小区信息

庸_才

于 2019-08-07 20:24:41 发布

阅读量1.5k

点赞数 2

分类专栏：闲来无事文章标签： Python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42486070/article/details/98778631

版权

本文介绍了一位Python爬虫初学者如何爬取链家网站上的成都小区房价信息。通过观察网站特点，利用requests和BeautifulSoup库，克服了访问限制问题，实现了自动爬取并提供了代码示例。同时强调了异常处理和优化循环的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

事先声明，本人爬虫初学者，实习时需要用到房价数据，故上阵爬虫，水平有限，若有高见，还请多多指教。

准备工具：Chrome浏览器、Python3.7、IPython notebook

爬虫流程

1.进入网站，观察网站特点

此处强调一下，请务必不要一上来就开始码代码（很多教程里这样做，但实属大坑）。

首先，我们要确定好自己要爬取的信息以及数据量。在本例中，笔者需要爬取网站上所有成都的小区的名字+房价。

先上图：

https://cd.lianjia.com/xiaoqu/

算了图上不了，看起来好丑的样子，就放个URL吧，将就将就。

显然，这个页面只推荐了30个小区，显然不够笔者塞牙缝的。

其实这个网站很好爬，笔者点了几下各个地区的链接，神奇的事情发生了：每个地区都推荐了大量的小区，而通过勾选条件筛选框，可以把不同层次的小区分开（不选的话只有30页，并没有列举完）。

这个时候，我们再单机右键，选择检查，使用小箭头助手查找小区名与房价信息的位置，很轻松地就找到了totalPrice与_blank两个标志性的class。

每个页面中的信息位置找到了，接下来就是寻找url的特征了，笔者试了几次就发现了，url是由固定前缀

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。