Python爬虫获取租房数据

最新推荐文章于 2025-04-01 17:17:21 发布

BulletTech2021

最新推荐文章于 2025-04-01 17:17:21 发布

阅读量5.4k

点赞数 5

分类专栏：一日搭建文章标签： python 爬虫数据挖掘

本文链接：https://blog.csdn.net/BulletTech2021/article/details/121756396

版权

本文介绍了如何使用Python爬虫从链家网站获取上海租房数据，通过XPath解析页面，处理反爬虫策略，成功获取28页房源信息，包括租赁方式、街区、价格等关键字段。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

租房/有房要出租的小伙伴们看过来~

衣食住行是生活的基本需求。衣和食好解决，不喜欢的衣服可以买新的，不好吃的食物可以换一家吃。可是在住宿上，买房和租房的置换成本都相对较高，因此房源选择尤为慎重。作为目前买不起房的自然人，我们一般是通过中介来实现租房的需求，比如自如，贝壳找房和链家。看来宇宙的尽头是铁岭，租房的尽头是链家……

链家占据了租赁市场的主导地位，且提供的信息相对公允。但每当我刷超过十个房源，我就会记不起来每一个的信息，也无法可视化去比较很多个房源。那么让我们开始动手，用万能的Python来让链家变成你家，获取链家网上的你想要的信息吧。（真的不是广告）

此次侧重XPath的使用和反爬虫小技巧。XPath是用路径表达式在XML文档中选取节点，这里也同样适用于HTML文档的搜索。

打开上海链家网的租房页面，选择筛选条件，示例如下。确认后地址栏的URL会根据筛选条件而发生变化。（当然如果没有想好想要住的区域，地铁线，租金，面积，朝向，户型也没有关系，可以直接爬取全部的上海房源数据。）

共计28页房源信息，点击切换下一页，观察URL会发现链家网是静态的网页，页面切换通过在URL中加入pg{i}参数实现。因此我们只要能爬取一页的信息，就可以通过参数循环来爬取所有页面。

按F12打开开发者工具，在页面中选择一个元素以进行检查。可以看到右侧的房源列表模块和左边的房源信息是一一对应的。左侧的每一条房源信息都等价于右侧的class属性为content__list--item的一个div图层。因此我们只需要观察了解第一个房源信息即可。

继续展开这个div图层，会发现我们需要的信息基本都被包含在属性为content__list--item--main的子div图层中，尤其是其中几个class为title，description，price的元素里。

以属性为content__list--item--title的paragraph为例࿰