使用XPath上

最新推荐文章于 2024-06-07 13:01:43 发布

小人物

最新推荐文章于 2024-06-07 13:01:43 发布

阅读量44

点赞数

文章标签： python 爬虫

本文链接：https://blog.csdn.net/2303_77841383/article/details/131622737

版权

1.XPath常用规则

表达式	描述
nodename	选取此节点的所有子节点
/	从当前节点选取直接子节点
//	从当前节点选取子孙节点
.	选取当前节点
..	选取当前节点的父节点
@	选取属性

这里列出了XPath的常用规则，示例如下：

//title[@lang='eng']

这就是一个XPath规则，它代表选择所有名称为title，同时属性lang的值为eng的节点。

2.实例引入

from lxml import etree
text='''
<div>
<ul>
<li class="item-0"><a href="link1.html">first item</a></li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-inactive"><a href="link3.html">third item</a></li>
<li class="item-1"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a>
</ul>
</div>
'''
html=etree.HTML(text)
result=etree.tostring(html)
print(result.decode('utf-8'))

这里先导入lxml库的etree模块，然后声明了一段HTML文本，调用HTML类进行初始化，这样我们就成功构造了一个XPath解析对象。但我们最后一个li节点没有闭合，etree模块可以自动修正HTML文本。

这里我们调用tostring()方法即可输出修正后的HTML代码，但是结果是bytes类型。这里利用decode()方法将其转成str类型，输出结果如下：

<html><body><div>
<ul>
<li class="item-0"><a href="link1.html">first item</a></li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-inactive"><a href="link3.html">third item</a></li>
<li class="item-1"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a>
</li></ul>
</div>
</body></html>

可以看到，li节点标签被补全，还自动添加了body、html节点。

另外也可以直接读取文本文件进行解析：

from lxml import etree
html=etree.parse('./text.html', etree.HTMLParser())
result=etree.tostring(html)
print(result.decode('utf-8'))

其中test.html就是我们要解析的文本。

小人物

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
使用XPath上

这里列出了XPath的常用规则，示例如下：这就是一个XPath规则，它代表选择所有名称为title，同时属性lang的值为eng的节点。
复制链接

扫一扫

使用XPath上

1.XPath常用规则

2.实例引入

“相关推荐”对你有帮助么？