解析库的学习小结(1)XPath学习

XPath


常用匹配规则

表达式描述
nodename选取此节点的所有子节点
/从当前节点选取直接子节点
//从当前节点选取子孙节点
.选取当前节点
..选取当前节点的父节点
@选取属性
//title[@lang='eng']
# 代表选择所有名称为title,同时lang的值为eng的节点
from lxml import etree
# etree 模块可以自动修正HTML 文本

text = '''
<div>
<ul>
<li class="item-0"><a href="link1.html">first item</a></li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-inactive"><a href="link3.html">third item</a></li>
<li class="item-1"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a>
</ul>
</div>
'''

# 一、使用HTML 类进行初始化,调用tostring()方法即可输出修正后HTML代码
# html = etree.HTML(text)
# result = etree.tostring(html)
# print(result.decode('utf-8'))

# 二、直接读取文本文件进行解析
html = etree.parse('./test.html', etree.HTMLParser())
result = etree.tostring(html)
print(result.decode('utf-8'))
  • 选取所有节点,以上一个文本为例
from lxml import etree

# 匹配所有节点,使用*代表所有节点
html = etree.parse('./test.html', etree.HTMLParser())
result = html.xpath('//*')
print(result)

# 匹配指定节点,返回结果为一个Element对象
html = etree.parse('./test.html', etree.HTMLParser())
result = html.xpath('//li')
print(result)
print(result[0])
  • 字节点
from lxml import etree

# 获取<li>标签里面的a子节点,用 / 选取 直接 子节点
html = etree.parse('./test.html', etree.HTMLParser())
result = html.xpath('//li/a')
print(result)

# 获取ul节点下的所有子孙节点
html = etree.parse('./test.html', etree.HTMLParser())
result = html.xpath('//ul//a')
print(result)
  • 父节点
from lxml import etree

# 用..来查找父节点
# 先选中href属性为link4.html的a节点,然后再获取其父节点,然后再获取其class属性
html = etree.parse('./test.html', etree.HTMLParser())
result = html.xpath('//a[@href="link4.html"]/../@class')
print(result)

# 也可以通过parent::来获取父节点
html = etree.parse('./test.html', etree.HTMLParser())
result = html.xpath('//a[@href="link4.html"]/parent::*/@class')
print(result)
  • 属性匹配
# 利用@符号进行属性过滤
from lxml import etree

html = etree.parse('./test.html', etree.HTMLParser())
result = html.xpath('//li[@class="item-0"]')
print(result)
  • 文本获取
from lxml import etree

# 1.选取a标签再获取文本,精准选取
html = etree.parse('./test.html', etree.HTMLParser())
result = html.xpath('//li[@class="item-0"]/a/text()')
print(result)

# 2.直接选取li节点的子孙节点文本,模糊选取
html = etree.parse('./test.html', etree.HTMLParser())
result = html.xpath('//li[@class="item-0"]//text()')
print(result)
  • 属性多值匹配
from lxml import etree

text = '''<li class="li li-first"><a href="link.html">first item</a></li>'''
html = etree.parse('./test.html', etree.HTMLParser())
result = html.xpath('//li[contains(@class, "li")]/a/text()')
print(result)
  • 多属性匹配
from lxml import etree

# 用and运算符匹配多个属性值
text = '''<li class="li li-first" name="item"><a href="link.html">first item</a></li>'''
html = etree.parse('./test.html', etree.HTMLParser())
result = html.xpath('//li[contains(@class, "li") and @name="item"]/a/text()')
print(result)

运算符

运算符描述
or
and
mod取余
|节点集
+加法
-减法
*乘法
div除法
=等于
!=不等于
<小于
<=小于或等于
>大于
>=大于或等于
from lxml import etree

html = etree.parse('./test.html', etree.HTMLParser())
result = html.xpath('//li[1]/a/text()')
print(result)
result = html.xpath('//li[last()]/a/text()')
print(result)
result = html.xpath('//li[position()<3]/a/text()')
print(result)
result = html.xpath('//li[last()-2]/a/text()')
print(result)
  • 节点轴选择
from lxml import etree

html = etree.parse('./test.html', etree.HTMLParser())
result = html.xpath('//li[1]/ancestor::*')
print(result) # ancestor轴,获取所有祖先节点,跟两个冒号,用*匹配所有节点
result = html.xpath('//li[1]/ancestor::div')
print(result) # 同上,但节点选择器选择div
result = html.xpath('//li[1]/attribute::*')
print(result) # attribute轴,获取所有的属性值
result = html.xpath('//li[1]/child::a[@href="link1.html"]')
print(result) # child轴,选取href属性为link1.html的a节点
result = html.xpath('//li[1]/descendant::span')
print(result) # descendant轴,所有子孙节点,选取span
result = html.xpath('//li[1]/following::*[2]')
print(result) # following轴,当前节点后的所有节点
result = html.xpath('//li[1]/following-sibling::*')
print(result) # following-sibling当前节点同级节点
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值