目录
前言
XPath,全称 XML Path Language
,即 XML 路径语言,它是一门在XML文档中查找信息的语言。XPath 最初设计是用来搜寻XML文档的,但是它同样适用于 HTML 文档的搜索。
所以在做爬虫
时,我们完全可以使用 XPath 来做相应的信息抽取,本节我们来介绍一下 XPath 的基本用法。
一、Xpath 语法
表达式 | 描述说明 |
---|---|
nodename | 选取此节点的所有子节点 |
/ | 从根节点选取 |
// | 从当前节点选择子孙节点(不考虑它们的位置) |
. | 选取当前节点 |
… | 选取当前节点的父节点 |
@ | 选取属性 |
上面列举的内容属于常用部分,下面用示例来说明具体的用法:
//div[@class="document"]
这是一个 Xpath 路径表达式,代表的是选择名称为 div
,属性 class
的值为 document
的节点。
在 Python 中,会通过 lxml
库,利用 XPath 进行解析(或在使用Selenium
时)。
二、实例应用
1.引入HTML
安装:
pip install lxml
代码:
# 先导入 lxml 库
from lxml import etree
text = """
<div>
<ul>
<li class="pl2"><a href="https://book.douban.com/subject/1007305/">红楼梦</a>
<li class="pl2"><a href="https://book.douban.com/subject/4913064/">活着</a></li>
<li class="pl2" id="sp"><a href="https://book.douban.com/subject/6082808/">百年孤独</a></li>
<li class="pl1"><a href="https://book.douban.com/subject/4820710/">1984</a></li>
</ul>
</div>
"""
html = etree.HTML(text)
result = etree.tostring(html, encoding='gbk')
print(result.decode('gbk'))
在上面的实例中,先导入 lxml
库中的 etree
模块,声明一段 HTML 文本,然后使用 etree 的 HTML 类进行初始化,构造一个 Xpath
解析对象。在这里需要注意一点,实例中,声明的 HTML 文本第 1 个节点没有闭合,但是 etree 模块会自动修正。
上面的输出结果如下:
<?xml version='1.0' encoding='gbk'?>
<html><body><div>
<ul>
<li class="pl2"><a href="https://book.douban.com/subject/1007305/">红楼梦</a>
</li><li class="pl2"><a href="https://book.douban.com/subject/4913064/">活着
</a></li>
<li class="pl2"><a href="https://book.douban.com/subject/6082808/">百年孤独<
/a></li>
<li class="pl1"><a href="https://book.douban.com/subject/4820710/">1984</a><
/li>
</ul>
</div>
</body></html>
在这里可以看到 li 节点标签已经补全,同时自动添加了 body、html 节点。
2.解析
根据上面引入的HTML,有以下几种方法可以拿到我们想要的数据:
2.1 从根节点选取
用/
来从根节点html/body/
开始往子级选择一直到a标签
html = etree.HTML(text)
result = html.xpath('/html/body/div/ul/li/a/text()')
print(result)
输出结果:
['红楼梦', '活着', '百年孤独', '1984']
2.2 从当前节点选择子孙节点
html = etree.HTML(text)
result = html.xpath('//li/a/text()')
print(result)
输出结果:
['红楼梦', '活着', '百年孤独', '1984']
2.3 通过@[属性=“xx”]选择标签
html = etree.HTML(text)
result = html.xpath('//li[@id="sp"]/a/text()')
print(result)
输出结果:
['百年孤独']
2.4 多值匹配
属性有时候可能不止 1 个,如下示例:
<li class="pl1 pl2"><a href="https://book.douban.com/subject/4820710/">红楼梦</a></li>
这个时候,要考虑使用 contains()
方法,这个方法需要的参数有:第一个参数是属性名称,第二个参数是属性值。该方法的实现过程是,若第一个参数属性包含第二个参数中的属性值,则可以匹配成功。例如:
html = etree.HTML(text)
result = html.xpath('//li[contains(@class, "pl1")]/a/text()')
print(result)
输出结果:
['红楼梦']
2.5 多属性匹配
在节点中,除了单个属性可以有多个值之外,也可以有多个属性。例如:
<li class="pl1 pl2" name="item"><a href="https://book.douban.com/subject/4820710/">百年孤独</a></li>
在这里,使用 and
运算符将多个属性连接:
html = etree.HTML(text)
result = html.xpath('//li[contains(@class, "pl1") and @name="item"]/a/text()')
print(result)
输出结果:
['百年孤独']
2.6 XPath 轴
在节点中,除了单个属性可以有多个值之外,也可以有多个属性。例如:
轴名称 | 含义 |
---|---|
parent | 上层父节点 |
child | 下层所有子节点 |
ancestor | 上面所有直系节点 |
descendant | 内部所有节点 |
following | 自你以下(排除自己及自己的后代)页面中所有节点 |
following-sibling | 同层下节点 |
preceding | 同层上节点(包括其子节点) |
preceding-sibling | 同层上节点(不包括子节点) |
parent
child
ancestor
descendant
following
following-sibling
preceding
preceding-sibling
总结
参考文章:
https://www.jianshu.com/p/7e69eaffd676
https://www.cnblogs.com/wangyi0419/p/11638652.html