【XPath】网页解析


前言

XPath,全称 XML Path Language,即 XML 路径语言,它是一门在XML文档中查找信息的语言。XPath 最初设计是用来搜寻XML文档的,但是它同样适用于 HTML 文档的搜索。

所以在做爬虫时,我们完全可以使用 XPath 来做相应的信息抽取,本节我们来介绍一下 XPath 的基本用法。


一、Xpath 语法

表达式描述说明
nodename选取此节点的所有子节点
/从根节点选取
//从当前节点选择子孙节点(不考虑它们的位置)
.选取当前节点
选取当前节点的父节点
@选取属性

上面列举的内容属于常用部分,下面用示例来说明具体的用法:

//div[@class="document"]

这是一个 Xpath 路径表达式,代表的是选择名称为 div,属性 class 的值为 document 的节点。

在 Python 中,会通过 lxml 库,利用 XPath 进行解析(或在使用Selenium 时)。

二、实例应用

1.引入HTML

安装:

pip install lxml

代码:

# 先导入 lxml 库
from lxml import etree

text = """
<div>
    <ul>
        <li class="pl2"><a href="https://book.douban.com/subject/1007305/">红楼梦</a>
        <li class="pl2"><a href="https://book.douban.com/subject/4913064/">活着</a></li>
        <li class="pl2" id="sp"><a href="https://book.douban.com/subject/6082808/">百年孤独</a></li>
        <li class="pl1"><a href="https://book.douban.com/subject/4820710/">1984</a></li>
    </ul>
</div>
"""

html = etree.HTML(text)
result = etree.tostring(html, encoding='gbk')
print(result.decode('gbk'))

在上面的实例中,先导入 lxml 库中的 etree 模块,声明一段 HTML 文本,然后使用 etree 的 HTML 类进行初始化,构造一个 Xpath 解析对象。在这里需要注意一点,实例中,声明的 HTML 文本第 1 个节点没有闭合,但是 etree 模块会自动修正。

上面的输出结果如下:

<?xml version='1.0' encoding='gbk'?>
<html><body><div>
    <ul>
        <li class="pl2"><a href="https://book.douban.com/subject/1007305/">红楼梦</a>
        </li><li class="pl2"><a href="https://book.douban.com/subject/4913064/">活着
</a></li>
        <li class="pl2"><a href="https://book.douban.com/subject/6082808/">百年孤独<
/a></li>
        <li class="pl1"><a href="https://book.douban.com/subject/4820710/">1984</a><
/li>
    </ul>
</div>
</body></html>

在这里可以看到 li 节点标签已经补全,同时自动添加了 body、html 节点。

2.解析

根据上面引入的HTML,有以下几种方法可以拿到我们想要的数据:

2.1 从根节点选取

/来从根节点html/body/开始往子级选择一直到a标签

html = etree.HTML(text)
result = html.xpath('/html/body/div/ul/li/a/text()')
print(result)

输出结果:

['红楼梦', '活着', '百年孤独', '1984']

2.2 从当前节点选择子孙节点

html = etree.HTML(text)
result = html.xpath('//li/a/text()')
print(result)

输出结果:

['红楼梦', '活着', '百年孤独', '1984']

2.3 通过@[属性=“xx”]选择标签

html = etree.HTML(text)
result = html.xpath('//li[@id="sp"]/a/text()')
print(result)

输出结果:

['百年孤独']

2.4 多值匹配

属性有时候可能不止 1 个,如下示例:

<li class="pl1 pl2"><a href="https://book.douban.com/subject/4820710/">红楼梦</a></li>

这个时候,要考虑使用 contains() 方法,这个方法需要的参数有:第一个参数是属性名称,第二个参数是属性值。该方法的实现过程是,若第一个参数属性包含第二个参数中的属性值,则可以匹配成功。例如:

html = etree.HTML(text)
result = html.xpath('//li[contains(@class, "pl1")]/a/text()')
print(result)

输出结果:

['红楼梦']

2.5 多属性匹配

在节点中,除了单个属性可以有多个值之外,也可以有多个属性。例如:

<li class="pl1 pl2" name="item"><a href="https://book.douban.com/subject/4820710/">百年孤独</a></li>

在这里,使用 and 运算符将多个属性连接:

html = etree.HTML(text)
result = html.xpath('//li[contains(@class, "pl1") and @name="item"]/a/text()')
print(result)

输出结果:

['百年孤独']

2.6 XPath 轴

在节点中,除了单个属性可以有多个值之外,也可以有多个属性。例如:

轴名称含义
parent上层父节点
child下层所有子节点
ancestor上面所有直系节点
descendant内部所有节点
following自你以下(排除自己及自己的后代)页面中所有节点
following-sibling同层下节点
preceding同层上节点(包括其子节点)
preceding-sibling同层上节点(不包括子节点)
parent

在这里插入图片描述

child

在这里插入图片描述

ancestor

在这里插入图片描述

descendant

在这里插入图片描述

following

在这里插入图片描述

following-sibling

在这里插入图片描述

preceding

在这里插入图片描述

preceding-sibling

在这里插入图片描述


总结

参考文章:

https://www.jianshu.com/p/7e69eaffd676
https://www.cnblogs.com/wangyi0419/p/11638652.html
  • 11
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值