用爬虫收集网站公开数据丨Python爬虫实战系列(5)

互联网阿星

已于 2022-05-15 19:39:19 修改

阅读量1.2k

点赞数 4

文章标签：爬虫 python 网络爬虫 python项目爬虫案例

于 2022-05-15 18:19:10 首次发布

本文链接：https://blog.csdn.net/m0_68103523/article/details/124785710

版权

提示：最新Python爬虫资料/代码练习>>戳我直达

文章目录

前言
用爬虫收集公开数据
小结

前言

lxml 解析库的应用
本节目标
在编写此程序的过程中，您将体会到 lxml 解析库的实际应用。

话不多说，开练！

用爬虫收集公开数据

编写程序流程分析

打开网站后，第一步，确定网站是否为静态网站，通过在网页源码内搜索关键字的方法，可以确定其为静态网站；第二步，确定要抓取页面的 URL 规律，第三步，根据要抓取的数据确定 Xpath 表达式；最后一步，编写 Python 爬虫程序。

通过简单的分析可知 URL 具有以下规律：
在这里插入图片描述

确定Xpath表达式

使用 Chrome 开发者工具对页面元素进行审查，从而确定 Xpath 表达式。首先根据要抓取的数据确定“基准表达式”。通过审查一处房源的元素结构，可以得知房源信息都包含在以下代码中：
在这里插入图片描述

1) 确定基准表达式

待抓取的信息都包含在相应的

标签中，如下所示：

<div class="positionInfo">..</div>
<div class="address">...</div>
<div class="priceInfo">...</div>

而每个页面中都包含 30 个房源，因此我们要匹配以下节点的父节点或者先辈节点，从而确定 Xpath 基准表达式：

<div class="info clear"></div>

通过页面结构分析可以得出每页的 30 个房源信息全部包含以下节点中：

<ul class="sellListContent" log-mod="list">
<li class="clear LOGVIEWDATA LOGCLICKDATA">
房源信息..
</li>
</ul>

接下来，使用调试工具定位上述元素，然后滚动鼠标滑。这时候神奇的一幕出现了，你会发现li标签的class属性值发生了变化，其结果如下：

<ul class="sellListContent" log-mod="list">
<li class="clear LOGCLICKDATA">
房源信息..
</li>
</ul>

发生变化的原因是由于 JS 事件触发导致的。因此就需要去页面的源码页进行匹配。

下面使用Ctrl+F分别对 class 变化前后的属性值进行检索，最后发现源码页只存在如下属性：

class="clear LOGVIEWDATA LOGCLICKDATA"

因此 Xpath 基准表达式如下所示：

//ul[@class="sellListContent"]/li[@class="clear LOGVIEWDATA LOGCLICKDATA"]

2) 确定抓取信息的表达式

根据页面元素结构确定待抓取信息的 Xpath 表达式，分别如下：

小区名称：name_list=h.xpath('.//a[@data-el="region"]/text()')
房屋介绍：info_list=h.xpath('.//div[@class="houseInfo"]/text()')
地址信息：address_list=h.xpath('.//div[@class="positionInfo"]/a/text()')
单价信息：price_list=h.xpath('.//div[@class="unitPrice"]/span/text()')

其中房屋介绍，主要包含了以下信息：
在这里插入图片描述

因此，匹配出的 info_list 列表需要经过处理才能得出我们想要的数据，如下所示：
在这里插入图片描述

info_list=h.xpath('.//div[@class="houseInfo"]/text()'

最低0.47元/天解锁文章

互联网阿星

关注

4
点赞
踩
10

收藏

觉得还不错? 一键收藏
3
评论
用爬虫收集网站公开数据丨Python爬虫实战系列(5)

本节讲解如何用爬虫收集二手房网站公开数据，用到lxml 解析库，涉及到Xpath表达式。【阿星建议】在学Python爬虫的你，动手练起来~
复制链接

扫一扫