python 获取li的内容_Python爬虫神器Xpath的使用

最新推荐文章于 2022-10-09 15:33:00 发布

weixin_39756235

最新推荐文章于 2022-10-09 15:33:00 发布

阅读量2.1k

点赞数

文章标签： python 获取li的内容 python爬虫xpath提取数据 xpath contains xpath 第一个元素 xpath获取标签的属性值

本文介绍了Python中用于XML和HTML解析的lxml库，以及XPath的使用方法。XPath是一种在XML文档中查找信息的语言，用于选取节点或节点集。通过实例展示了如何使用XPath选取节点、获取属性、处理文本，并探讨了XPath的轴和路径表达式。

摘要由CSDN通过智能技术生成

在用 Python 实现爬虫时，可以使用 requests 库访问资源，然后用正则表达式提取信息。

但是，这里会有一些繁琐，因为正则表达式的书写是比较严格的，万一有一个地方写错了，可能会导致匹配失败无法提取需要的信息。

对于网页的节点来说，可以定义 id、class 或其他属性。节点之间有层次关系，在网页中，其实可以通过 Xpath 定位一个或多个节点。

那么相应的，在页面解析的时候，利用 Xpath 定位节点，调用相应的方法获取正文或者属性，那么完全可以获取需要的信息。

在 Python 中，这个解析库叫 lxml，下面来介绍这个解析库的用法。

lxml 库

lxml 是 Python 的一个解析库，支持 HTML 和 XML 的解析，支持 XPath 解析方式，效率非常高。

使用 lxml 之前，需要先安装，可以使用如下命令：

$ pip install lxml

Xpath 简介

Xpath，全称 XML Path Language，即是 XML 路径语言。Xpath 是一门在 XML 文档中查找信息的语言，用于在 XML 文档中通过元素和属性进行导航，但同样适用于 HTML 文档的搜索。

在实现爬虫时，完全可以通过 Xpath 进行信息提取。

Xpath 的功能强大，使用路径表达式来选取 XML 或 HTML 文档中的节点或者节点集。Xpath 有超过 100 个内建的函数。这些函数可用于字符串、数值、日期和时间比较、节点、序列处理和逻辑值等等。

Xpath 于 1999 年 11 月 16 日成为 W3C 标准，被设计为供 XSLT、XPointer 以及其他 XML 解析软件使用。

Xpath 语法

前面提及了，Xpath 使用路径表达式选取文档中的节点或节点集。

下面罗列常用的路径表达式：

表达式描述说明nodename选取此节点的所有子节点/从根节点选取//从当前节点选择子孙节点(不考虑它们的位置).选取当前节点..选取当前节点的父节点@选取属性

上面罗列的内容属于常用部分，用示例来说明下具体的用法：

//div[@class="document"]

这就是一个 Xpath 路径表达式，代表的是选择名称为 div，属性 class 的值为 document 的节点。

在 Python 中，会通过 lxml 库，利用 Xpath 进行解析。

实例应用

通过实例了解使用 Xpath 对网页进行解析的过程，代码如下(下面 HTML 内容节选自豆瓣，稍作更改)：

# 先导入 lxml 库from lxml import etreetext = """

红楼梦活着百年孤独 1984

"""html = etree.HTML(text)result = etree.tost

最低0.47元/天解锁文章

weixin_39756235

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python 获取li的内容_Python爬虫神器Xpath的使用

在用 Python 实现爬虫时，可以使用 requests 库访问资源，然后用正则表达式提取信息。但是，这里会有一些繁琐，因为正则表达式的书写是比较严格的，万一有一个地方写错了，可能会导致匹配失败无法提取需要的信息。对于网页的节点来说，可以定义 id、class 或其他属性。节点之间有层次关系，在网页中，其实可以通过 Xpath 定位一个或多个节点。那么相应的，在页面解析的时候，利用 Xpath ...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。