lxml中etree.HTML()和etree.tostring()用法

最新推荐文章于 2024-02-17 22:38:06 发布

初识-CV

最新推荐文章于 2024-02-17 22:38:06 发布

阅读量6.7w

点赞数 22

分类专栏： web 爬虫文章标签： lxml etree HTML tostring 用法

本文链接：https://blog.csdn.net/qq_38410428/article/details/82792730

版权

爬虫同时被 2 个专栏收录

6 篇文章 0 订阅

订阅专栏

web

4 篇文章 2 订阅

订阅专栏

etree.HTML():构造了一个XPath解析对象并对HTML文本进行自动修正。
etree.tostring()：输出修正后的结果，类型是bytes
可参考以下代码：

from lxml import etree
text = '''
<div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a>
     </ul>
 </div>
'''
html = etree.HTML(text)
result = etree.tostring(html)
print(result.decode('utf-8'))

这里首先导入lxml库的etree模块，然后声明了一段HTML文本，调用HTML类进行初始化，这样就成功构造了一个XPath解析对象。这里需要注意的是，HTML文本中的最后一个li节点是没有闭合的，但是etree.HTML模块可以自动修正HTML文本。
这里我们调用tostring()方法即可输出修正后的HTML代码，但是结果是bytes类型。这里利用decode()方法将其转成str类型，结果如下

<html><body><div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a>
     </li></ul>
 </div>
</body></html>

可以看到，经过处理之后，li节点标签被补全，并且还自动添加了body、html节点。

参考：崔庆才的Python3网络爬虫开发实战

初识-CV

关注

22
点赞
踩
54

收藏

觉得还不错? 一键收藏
10
评论
lxml中etree.HTML()和etree.tostring()用法

from lxml import etreetext = '''&amp;amp;amp;lt;div&amp;amp;amp;gt; &amp;amp;amp;lt;ul&amp;amp;amp;gt; &amp;amp;amp;lt;li class=&amp;amp;quot;item-0&amp;amp;quot;&amp;amp;amp;gt;&amp;amp;amp;lt;a href=&amp
复制链接

扫一扫