xpath获取标签的属性值_学爬虫利器Xpath，看这一篇就够了（建议收藏）

最新推荐文章于 2025-04-02 19:54:31 发布

weixin_39797393

最新推荐文章于 2025-04-02 19:54:31 发布

阅读量9.4k

点赞数

文章标签： xpath获取标签的属性值

上一篇文章主要给大家介绍了Xpath的基础知识，大家看完之后有没有收获呢？按照计划，今天就结合示例给大家介绍如何使用Xpath？

1.获取所有节点

我们一般会用「//」开头的Xpath规则来选取所有符合要求的节点。以下面的HTML文本为例，如果要选取所有节点，可以这样实现：

运行结果如下：

[<Element html at 0x295b308>, <Element body at 0x295b2c8>, <Element div at 0x295b3c8>, <Element ul at 0x295b408>, <Element li at 0x295b448>, <Element a at 0x295b4c8>, <Element li at 0x295b508>, <Element a at 0x295b548>, <Element li at 0x295b588>, <Element a at 0x295b488>, <Element li at 0x295b5c8>, <Element a at 0x295b608>, <Element li at 0x295b648>, <Element a at 0x295b688>]

这里使用*代表匹配所有节点，也就是整个HTML文本的所有节点都会被获取。可以看到，返回形式是一个列表，每个元素是Elment类型，其后跟了节点的名称，如html、body、div、ul、li、a等，所有节点都包含在列表中了。

如果想获取指定节点名称，例如li节点，操作如下：

from lxml import etree

html = etree.parse('./test.html',etree.HTMLParser())
result = html.xpath('//li')
print(result)
print(result[0])

这里要选取li节点，可以使用//，然后直接加上节点名称即可，调用时直接使用xpath()方法即可。

运行结果如下：

[<Element li at 0x294b448>, <Element li at 0x294b488>, <Element li at 0x294b4c8>, <Element li at 0x294b508>, <Element li at 0x294b548>]
<Element li at 0x294b448>

我们可以看到提取结果是一个列表形式，其中每个元素都是一个Elment对象。如果要取出其中一个对象，可以直接用中括号加索引，如[0]。

2.获取子节点

我们通过/或//即可查找元素的子节点或子孙节点。假如现在想选择li节点的所有直接a子节点，可以这样实现：

from lxml import etree

html = etree.parse('./test.html',etree.HTMLParser())
result = html.xpath('//li/a')
print(result)

这里通过追加/a即选择了所有li节点的所有直接a子节点。因为//li用于选中所有li节点，/a用于选中li节点的所有直接子节点a，二者组合在一起即获取所有li节点的所有直接a子节点。

运行结果如下：

[<Element a at 0x292e2c8>, <Element a at 0x292e308>, <Element a at 0x292e348>, <Element a at 0x292e388>, <Element a at 0x292e3c8>]

此处的/用于选取直接子节点，如果要获取所有子孙节点，就可以使用//。例如，要获取ul节点下的所有子孙a节点，可以这样实现：

from lxml import etree

html = etree.parse('./test.html',etree.HTMLParser())
result = html.xpath('//ul//a')
print(result)

运行结果如下：

[<Element a at 0x293b408>, <Element a at 0x293b448>, <Element a at 0x293b488>, <Element a at 0x293b4c8>, <Element a at 0x293b508>]

但是如果这里用//ul/a，就无法获取任何结果了。因为/用于获取直接子节点，而在ul节点下没有直接的a子节点，只有li节点，所以无法获取任何匹配结果，代码如下：

from lxml import etree

html = etree.parse('./test.html',etree.HTMLParser())
result = html.xpath('//ul/a')
print(result)

运行结果如下：

[]

小结：这里我们要注意/和//的区别，其中/用于获取直接子节点，//用于获取子孙节点。

3.获取父节点

假如我们知道了子节点，怎么来查找父节点呢？可以用..来实现。

比如，现在首先选中href属性为link4.html的a节点，然后再获取其父节点，然后再获取class属性，相关代码如下：

from lxml import etree

html = etree.parse('./test.html',etree.HTMLParser())
result = html.xpath('//a[@href="link4.html"]/../@class')
print(result)

运行结果如下：

['item-1']

检查一下结果发现，这正是我们获取的目标li节点的class。

同时，我们也可以通过parent：：来获取父节点，代码如下：

from lxml import etree

html = etree.parse('./test.html',etree.HTMLParser())
result = html.xpath('//a[@href="link4.html"]/parent::*/@class')
print(result)

4.属性匹配

在选取的时候，我们还可以用@符号进行属性过滤。比如，这里选取class为item-0的li节点，可以这样实现：

from lxml import etree

html = etree.parse('./test.html',etree.HTMLParser())
result = html.xpath('//li[@class="item-0"]')
print(result)

这里我们通过加入[@class=“item-0”]，限制了节点的class属性为item-0，而HTML文本中符合条件的li节点有两个，所以结果应该返回两个匹配到的元素。结果如下：

[<Element li at 0x293e2c8>, <Element li at 0x293e308>]

可见，匹配到的结果正是两个，至于是不是那正确的两个，后面再验证。

5.获取文本

我们用Xpath中的text（）方法获取节点的文本，接下来尝试获取前面li节点中的文本，相关代码如下：

from lxml import etree

html = etree.parse('./test.html',etree.HTMLParser())
result = html.xpath('//li[@class="item-0"]/text()')
print(result)

运行结果如下：

['rn']

奇怪的是，我们并没有获取到任何文本，只获取到了一个换行符，这是为什么呢？

因为Xpath中text()前面是/，而此处/的含义是选取直接子节点，很明显li的直接子节点都是a节点，文本都是在a节点内部，所以这里匹配到的结果就是被修正的li节点内部的换行符，因为自动修正的li节点的尾标签换行了。

即选中的是这两个节点：

<li class="item-0"><a href="link1.html">first item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a>
</li>

其中一个节点因为自动修正，li节点的尾标签添加的时候换行了，所以提取文本得到唯一结果就是li节点的尾标签和a节点的尾标签之间的换行符。

因此，如果想获取li节点内部的文本，就有两种方式，一种是先选取a节点再获取文本，另一种就是使用//。接下来，我们来看一下二者的区别。

（1）选取到a节点再获取文本，代码如下：

from lxml import etree

html = etree.parse('./test.html',etree.HTMLParser())
result = html.xpath('//li[@class="item-0"]/a/text()')
print(result)

运行结果如下：

['first item', 'fifth item']

可以看到，这里的返回值是两个，内容都是属性为item-0的li节点的文本，这也验证了前面属性匹配的结果是正确的。

这里我们是逐层选取的，先选取了li节点，又利用/选取了其直接子节点a，然后再选取其文本，得到的结果恰好是符合我们预期的两个结果。

（2）再来看一下另一种方式（即使用//）选取的结果，代码如下：

from lxml import etree

html = etree.parse('./test.html',etree.HTMLParser())
result = html.xpath('//li[@class="item-0"]//text()')
print(result)

运行结果如下：

['first item', 'fifth item', 'rn']

不出所料，这里的返回结果是3个。分析可知，这里是选取所有子孙节点的文本，其中前面两个就是li的子节点a节点内部的文本，另一个就是最后一个li节点内部的文本，即换行符。

小结：如果要想获取子孙节点内部的所有文本，可以直接用//加text（）的方式，这样可以保证获取到最全面的文本信息，但是可能会夹杂一些换行符等特殊字符。

如果想获取某些特定子孙节点下的所有文本，可以先选取到特定的子孙节点，然后再调用text（）方法获取其内部文本，这样可以保证获取到的结果是整洁的。

6.获取属性

这里我们用@符号就可以获取节点属性。例如，我们想获取所有li节点下所有a节点的href属性，代码如下：

from lxml import etree

html = etree.parse('./test.html',etree.HTMLParser())
result = html.xpath('//li/a/@href')
print(result)

这里我们通过@href即可获取节点href属性。注意，此处和属性匹配的方法不同，属性匹配是中括号加属性名和值来限定某个属性，如[@href=“link1.html”]，而此处的@href指的是获取节点的某个属性，二者需要做好区分。

运行结果如下：

['link1.html', 'link2.html', 'link3.html', 'link4.html', 'link5.html']

可以看到，我们成功获取了所有li节点下a节点的href属性，它们以列表形式返回。

7.属性多值匹配

有时候，某些节点的某个属性可能有多个值，例如：

from lxml import etree
text = """
<li class="li li-first"><a href="link.html">first item</a></li>
"""
html = etree.HTML(text)
result = html.xpath('//li[@class="li"]/a/text()')
print(result)

这里HTML文本中li节点的class属性有两个值li和li-first，此时如果还想用之前的属性匹配获取，就无法匹配了，此时的运行结果如下：

[]

这时就需要用contains（）函数了，代码可以改写如下：

from lxml import etree
text = """
<li class="li li-first"><a href="link.html">first item</a></li>
"""
html = etree.HTML(text)
result = html.xpath('//li[contains(@class,"li")]/a/text()')
print(result)

这样通过contains（）方法，第一个参数传入属性名称，第二个参数传入属性值，只要此属性包含所传入的属性值，就可以完全匹配了。

此时运行结果如下：