python爬虫入门（六）之 xpath 解析

橙意满满的西瓜大侠

于 2024-08-16 00:28:12 发布

阅读量1k

点赞数 5

分类专栏： Python 文章标签： python 爬虫

本文链接：https://blog.csdn.net/2302_79795489/article/details/141234123

版权

14 篇文章 2 订阅

订阅专栏

一、什么是xpath

XPath（XML Path Language）是一种用于在 XML 文档中查找信息的语言。

html是xml的一个子集（XML 允许用户创建自己的标签来描述数据。例如，<book>、<title>、<author> 是 XML 标签，可以用于描述书籍信息）。

Xpath可以用来遍历 XML 文档的节点、选择节点，或对节点进行条件筛选，实际上它就是靠节点之间的关系去查找内容。

pip install lxml （终端）
from lxml import etree

（1）fromstring()函数：解析较短的字符串

（2）XML()函数：解析xml文档内容

（3）HTML()函数：解析html文档内容（已经化成text的）

tree=etree.HTML(resp.text)

（4）parse()函数：解析文件或类文件对象

tree=etree.parse("a.html")

xpath通过路径表达式选取节点，result=tree.xpath("路径表达式")

下面是常用的路径表达式：

表达式	描述
/	表示层级关系（开头一个/：从根节点开始）
.	表示当前节点（./：从当前节点开始）
..	表示当前节点的父节点
A//B	表示在A中找为B的所有子孙后代节点（斜杠之间为空，即任意多少内容均可）
A/*/B	表示在A中找为B的孙子节点（斜杠之间为通配符*，必须是一个内容，可任意）
text()	表示选取文本内容（比如：li.xpath(./a/text())，否则得到的是迭代器，而不是列表）
[n]	表示索引筛选（比如：li[1]选取第一个li，注意从一开始）
[@xx="xxx"]	表示属性筛选（比如：a[@href='dapao']选取href属性为dapao的a标签
@xx	表示选取属性的值（比如：li.xpath(./a/@href)，提取a里面href的值）