Python爬虫入门教程【16】：链家租房数据抓取

追梦IT男

于 2019-07-26 16:59:55 发布

阅读量783

点赞数

文章标签： Python 爬虫数据挖掘编程语言

本文链接：https://blog.csdn.net/wcg541/article/details/97396127

版权

本文是Python爬虫入门教程的一部分，详细介绍了如何抓取链家网站的租房信息。作者首先分析了目标网址，明确了需要的数据部分，接着探讨了翻页规则。在解析网页阶段，介绍了使用特定模块模拟用户代理（UA）来避免被网站屏蔽，并利用协程高效抓取数据，最后将数据保存为CSV文件。这是一个学习Python爬虫和数据抓取的实用案例。

摘要由CSDN通过智能技术生成

1. 写在前面

作为一个活跃在京津冀地区的开发者，要闲着没事就看看石家庄这个国际化大都市的一些数据，这篇博客爬取了链家网的租房信息，爬取到的数据在后面的博客中可以作为一些数据分析的素材。
我们需要爬取的网址为：https://sjz.lianjia.com/zufang/

2. 分析网址

首先确定一下，哪些数据是我们需要的

可以看到，黄色框就是我们需要的数据。

接下来，确定一下翻页规律

https://sjz.lianjia.com/zufang/pg1/
https://sjz.lianjia.com/zufang/pg2/
https://sjz.lianjia.com/zufang/pg3/
https://sjz.lianjia.com/zufang/pg4/
https://sjz.lianjia.com/zufang/pg5/
... 
https://sjz.lianjia.com/zufang/pg80/
Python资源分享qun 784758214 ,内有安装包，PDF，学习视频，这里是Python学习者的聚集地，零基础，进阶，都欢迎