解析库的学习小结(1)XPath学习

最新推荐文章于 2022-12-18 13:47:50 发布

xytwo

最新推荐文章于 2022-12-18 13:47:50 发布

阅读量156

点赞数 1

分类专栏：解析库文章标签：解析 XPath

本文链接：https://blog.csdn.net/qq_43533532/article/details/86690041

版权

解析库专栏收录该内容

3 篇文章 0 订阅

订阅专栏

XPath

常用匹配规则

表达式	描述
`nodename`	选取此节点的所有子节点
`/`	从当前节点选取直接子节点
`//`	从当前节点选取子孙节点
`.`	选取当前节点
`..`	选取当前节点的父节点
`@`	选取属性

//title[@lang='eng']
# 代表选择所有名称为title，同时lang的值为eng的节点

from lxml import etree
# etree 模块可以自动修正HTML 文本

text = '''
<div>
<ul>
<li class="item-0"><a href="link1.html">first item</a></li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-inactive"><a href="link3.html">third item</a></li>
<li class="item-1"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a>
</ul>
</div>
'''

# 一、使用HTML 类进行初始化，调用tostring()方法即可输出修正后HTML代码
# html = etree.HTML(text)
# result = etree.tostring(html)
# print(result.decode('utf-8'))

# 二、直接读取文本文件进行解析
html = etree.parse('./test.html', etree.HTMLParser())
result = etree.tostring(html)
print(result.decode('utf-8'))

选取所有节点，以上一个文本为例

from lxml import etree

# 匹配所有节点，使用*代表所有节点
html = etree.parse('./test.html', etree.HTMLParser())
result = html.xpath('//*')
print(result)

# 匹配指定节点，返回结果为一个Element对象
html = etree.parse('./test.html', etree.HTMLParser())
result = html.xpath('//li')
print(result)
print(result[0])

字节点

from lxml import etree

# 获取<li>标签里面的a子节点，用 / 选取 直接 子节点
html = etree.parse('./test.html', etree.HTMLParser())
result = html.xpath('//li/a')
print(result)

# 获取ul节点下的所有子孙节点
html = etree.parse('./test.html', etree.HTMLParser())
result = html.xpath('//ul//a')
print(result)

父节点

from lxml import etree

# 用..来查找父节点
# 先选中href属性为link4.html的a节点，然后再获取其父节点，然后再获取其class属性
html = etree.parse('./test.html', etree.HTMLParser())
result = html.xpath('//a[@href="link4.html"]/../@class')
print(result)

# 也可以通过parent::来获取父节点
html = etree.parse('./test.html', etree.HTMLParser())
result = html.xpath('//a[@href="link4.html"]/parent::*/@class')
print(result)

属性匹配

# 利用@符号进行属性过滤
from lxml import etree

html = etree.parse('./test.html', etree.HTMLParser())
result = html.xpath('//li[@class="item-0"]')
print(result)

文本获取

from lxml import etree

# 1.选取a标签再获取文本，精准选取
html = etree.parse('./test.html', etree.HTMLParser())
result = html.xpath('//li[@class="item-0"]/a/text()')
print(result)

# 2.直接选取li节点的子孙节点文本，模糊选取
html = etree.parse('./test.html', etree.HTMLParser())
result = html.xpath('//li[@class="item-0"]//text()')
print(result)

属性多值匹配

from lxml import etree

text = '''<li class="li li-first"><a href="link.html">first item</a></li>'''
html = etree.parse('./test.html', etree.HTMLParser())
result = html.xpath('//li[contains(@class, "li")]/a/text()')
print(result)

多属性匹配

from lxml import etree

# 用and运算符匹配多个属性值
text = '''<li class="li li-first" name="item"><a href="link.html">first item</a></li>'''
html = etree.parse('./test.html', etree.HTMLParser())
result = html.xpath('//li[contains(@class, "li") and @name="item"]/a/text()')
print(result)

运算符

运算符	描述
`or`	或
`and`	与
`mod`	取余
`\|`	节点集
`+`	加法
`-`	减法
`*`	乘法
`div`	除法
`=`	等于
`!=`	不等于
`<`	小于
`<=`	小于或等于
`>`	大于
`>=`	大于或等于

按序选择
函数用法查看

from lxml import etree

html = etree.parse('./test.html', etree.HTMLParser())
result = html.xpath('//li[1]/a/text()')
print(result)
result = html.xpath('//li[last()]/a/text()')
print(result)
result = html.xpath('//li[position()<3]/a/text()')
print(result)
result = html.xpath('//li[last()-2]/a/text()')
print(result)

节点轴选择

from lxml import etree

html = etree.parse('./test.html', etree.HTMLParser())
result = html.xpath('//li[1]/ancestor::*')
print(result) # ancestor轴，获取所有祖先节点，跟两个冒号，用*匹配所有节点
result = html.xpath('//li[1]/ancestor::div')
print(result) # 同上，但节点选择器选择div
result = html.xpath('//li[1]/attribute::*')
print(result) # attribute轴，获取所有的属性值
result = html.xpath('//li[1]/child::a[@href="link1.html"]')
print(result) # child轴，选取href属性为link1.html的a节点
result = html.xpath('//li[1]/descendant::span')
print(result) # descendant轴，所有子孙节点，选取span
result = html.xpath('//li[1]/following::*[2]')
print(result) # following轴，当前节点后的所有节点
result = html.xpath('//li[1]/following-sibling::*')
print(result) # following-sibling当前节点同级节点