python使用xpath返回一个整形_Python XPath的使用

最新推荐文章于 2023-10-04 16:01:34 发布

weixin_39996739

最新推荐文章于 2023-10-04 16:01:34 发布

阅读量248

点赞数

文章标签： python使用xpath返回一个整形

```

我们要注意/和//的区别，其中/是用于获取直接子节点，//用于获取子孙节点。

获取父节点

我们已经知道了获取子节点和子孙节点，获取父节点可以用..来实现。比如我们想获取href属性为/films/1218273的a节点的父节点的class属性，也就是p的class属性，可以这样来实现：

from lxml import etree

text = '''

误杀

主演：肖央,谭卓,陈冲

上映时间：2019-12-13

叶问4：完结篇

主演：甄子丹,吴樾,吴建豪

上映时间：2019-12-20

'''

html = etree.HTML(text)

result = html.xpath('//a[@href="/films/1218273"]/../@class')

print(result)

运行结果如下：

['name']

0x05 属性匹配

上面我们获取父节点的属性时已经用到了属性的知识，在xpath中我们可以用@符号来进行属性过滤。比如这里要选取class为star的p节点，可以这样实现：

from lxml import etree

text = '''

误杀

主演：肖央,谭卓,陈冲

上映时间：2019-12-13

叶问4：完结篇

主演：甄子丹,吴樾,吴建豪

上映时间：2019-12-20

'''

html = etree.HTML(text)

result = html.xpath('//p[@class="star"]') # 属性匹配

print(result)

这里我们通过加入[@class="star"]，限制了节点的class属性为star，而在案例的HTML文本中符合条件的p节点有两个，所以结果应该返回两个匹配到的元素。结果如下：

[, ]

0x06文本获取

我们可以利用XPath中的test()方法来获取文本内容，接下来尝试获取属性为class的p节点的文本，也就是我们的电影名称

from lxml import etree

text = '''

误杀

主演：肖央,谭卓,陈冲

上映时间：2019-12-13

叶问4：完结篇

主演：甄子丹,吴樾,吴建豪

上映时间：2019-12-20

'''

html = etree.HTML(text)

result = html.xpath('//p[@class="name"]/text()')

print(result)

运行结果如下：

[]

我们可以看到我们并没有获取到任何文本，书上给的解释是：XPath中text()前面是/，而此处/的含义是选取直接子节点，p的直接子节点都是a节点，文本都是在a节点内部的。我们错误的使用了/使得我们没有匹配到想要获取的内容

如果想要获取p节点的内部文本，就有两种获取方式，一种是先获取a节点在获取文本，另一种就是使用//。接下来，我们来看一下二者的区别：

首先，选取到a节点在获取文本，代码如下：

from lxml import etree

text = '''

误杀

主演：肖央,谭卓,陈冲

上映时间：2019-12-13

叶问4：完结篇

主演：甄子丹,吴樾,吴建豪

上映时间：2019-12-20

'''

html = etree.HTML(text)

result = html.xpath('//p[@class="name"]/a/text()')

print(result)

运行结果如下：

['误杀', '叶问4：完结篇']

可以看到这里的返回值是两个，内容都是属性为name的p节点的文本。这里我们是逐层选取的，先选取了p节点，有利用/选取了其直接子节点a，然后再选取文本，得到的结果恰好是我们预期的两个结果

再来看下用另外一种方式(即使用//)选取的结果，代码如下：

from lxml import etree

text = '''

误杀

主演：肖央,谭卓,陈冲

上映时间：2019-12-13

叶问4：完结篇

主演：甄子丹,吴樾,吴建豪

上映时间：2019-12-20

'''

html = etree.HTML(text)

result = html.xpath('//p[@class="name"]//text()') # 使用//获取p节点下的文本

print(result)

运行结果如下：

['误杀', '叶问4：完结篇']

我们可以看到我们还是得到了预期的结果，但是如果我们想获取属性为star的p节点下的文本，代码如下：

from lxml import etree

text = '''

误杀

主演：肖央,谭卓,陈冲

上映时间：2019-12-13

叶问4：完结篇

主演：甄子丹,吴樾,吴建豪

上映时间：2019-12-20

'''

html = etree.HTML(text)

result = html.xpath('//p[@class="star"]//text()')

print(result)

运行结果：

['\n 主演：肖央,谭卓,陈冲\n', '\n 主演：甄子丹,吴樾,吴建豪\n ']

我们发现虽然获取到了我们想要的内容，但是里面还有一些换行符。所以说，如果想要获取子孙节点内部的所有文本，可以直接使用//加text()方式，这样可以保证获取到最全面的文本信息，但是可能会夹杂一些换行符等特殊字符。如果想要获取某些特定子孙节点下的所有文本，可以先获取到特定的子孙节点，然后再调用text()方法获取其内部文本，这样可以保证我们的结果是整洁的

0x07 属性获取

我们知道用text()可以获取节点内部文本，那么节点属性该怎样获取呢？其实还是用@符号就可以。例如，我们想获取所有p节点下所有a节点的href属性，代码如下：

from lxml import etree

text = '''

误杀

主演：肖央,谭卓,陈冲

上映时间：2019-12-13

叶问4：完结篇

主演：甄子丹,吴樾,吴建豪

上映时间：2019-12-20

'''

html = etree.HTML(text)