爬虫的步骤解析内容xpath介绍_爬虫Day17-解析库Xpath

最新推荐文章于 2024-05-14 09:45:42 发布

weixin_39620099

最新推荐文章于 2024-05-14 09:45:42 发布

阅读量101

点赞数

文章标签：爬虫的步骤解析内容xpath介绍

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39620099/article/details/111970498

版权

前言

我们在之前介绍如何解析响应数据时讲到了 BeautifulSoup 这个解析库，传送门：爬虫Day6-Beautiful介绍

但学习之后我们发现，BeautifulSoup 是依赖解析器的，在实际开发环境中，我们常常遇到一些特殊情况，例如编码格式导致解析时发现页面数据缺失等等情景。

这时候，除了更换解析器这个办法之外，我们还可以使用其他的解析库，例如 Xpath。

Xpath介绍

XPath，全称 XML Path Language，即 XML 路径语言，它是一门在XML文档中查找信息的语言(XML也是一种标签化语言)。XPath 最初设计是用来搜寻XML文档的，但是它同样适用于HTML文档的搜索。

Python 标准库中自带了 xml 模块，但是性能不够好，而且缺乏一些人性化的 API，相比之下，第三方库 lxml 是用

Cython 实现的，而且增加了很多实用的功能，可谓爬虫处理网页数据的一件利器。lxml 大部分功能都存在

lxml.etree中。

Xpath 常用规则每一条 / 都表示一层嵌套关系，我们需要对HTML结构进行一定的了解，使用Xpath 才更加得心应手

// 匹配的节点好比喻成文件系统的绝对路径，如果有相符的节点名称，那么就会被匹配到

@ 这个符号选取属性，我们一般用来获取 URL ，例如：@href

下面列出用法举例：

LXML 库的使用

读入HTML 文本传入 HTML 文本，会自动修正(补齐缺漏的节点标签)且生成一个XPath解析对象，后续的解析都是根据解析对象来调用xpath方法进行节点选择

由于初始化 HTML 文本返回的结果是bytes类型，我们打印出来时，需要转为utf-8。

读入HTML 纯文件test.html是我们创建的html文件，里面存放一些html文本

跟直接读取html文本不同的是，文件读取会多出 DOCTYPE 的声明，但是对内容解析没有影响

tostring 方法可以实现将内容结构化打印出来(比较直观)

xpath 选择节点

关于怎么选择节点，除了上面讲的 xpath 常用规则之外，还有一些关于属性匹配、属性获取的使用方法。属性获取：@href 即可获取节点的 href 属性

属性匹配：使用中括号，@属性名 = 值的方式来限定某个属性

获取文本

用 XPath 中的 text() 方法可以获取节点中的文本这里要注意，text()方法要结合着前面的”/“或“//” 标签看，如果是 “/” 的话，就输出当前子节点的文本；如果是 “//” 的话，就输出当前节点的所有子孙节点的文本

模糊查询

如果 HTML 文本中的 li 节点的 class 属性有两个值，例如 “class =li li-first”

遇到这种情况，我们可以用contains()函数或者将多个值写全，才能匹配到该节点。

多属性匹配

如果需要根据多个属性才能确定一个节点，这是就需要同时匹配多个属性才可以，那么这里可以使用运算符 and 来连接(xml还支持其他运算符)and 表示 “与” 的关系，只有同时满足两个属性匹配表达式，该节点才会被选中。

按序选择

有时候我们在选择的时候可能某些属性同时匹配了多个节点，但是我们只想要其中的某个节点，如第二个节点，或者最后一个节点，这时该怎么办呢？

这时可以利用中括号传入索引的方法获取特定次序的节点

类似于列表的切片，不过需要注意：这里的切片的索引是从1开始的

支持last、position等函数

还支持+-<>的推算

写在最后

这一篇还是干货满满的，哈哈哈，慢慢吸收吧~ 关于节点选择的编写，写熟了自然就会了。

下回见，peace~

weixin_39620099

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。