Python数据解析

最新推荐文章于 2024-04-27 14:47:02 发布

在路上的小王

最新推荐文章于 2024-04-27 14:47:02 发布

阅读量265

点赞数

分类专栏：笔记文章标签： python

本文链接：https://blog.csdn.net/m0_48915964/article/details/109258546

版权

笔记专栏收录该内容

9 篇文章 0 订阅

订阅专栏

lxml库

基本使用：我们可以用它来解析HTML代码，并且在解析html代码的时候，如果HTML代码不规范，它会自动进行补全。

test='''
<div>
        <url>
            <li class="item-0"><a href="link1.html">first item</a></li>
            <li class="item-1"><a href="link2.html">second item</a></li>
            <li class="item-inactive"><a href="link3.html"><span class="bold">third item</span></a></li>
            <li class="item-1"><a href="link4.html">forth item</a></li>
            <li class="item-0"><a href="link5.html">fifth item</a></li>
        </url>
    </div>
'''

from lxml import etree
html=etree.HTML(test) #初始化text 将字符串解析成HTML文档
result=etree.tostring(html).decode('utf-8') #按字符串序列化html。返回的是字节型，所以需要.decode('utf-8')
print(result)

得到的结果：

<html><body><div>
        <url>
            <li class="item-0"><a href="link1.html">first item</a></li>
            <li class="item-1"><a href="link2.html">second item</a></li>
            <li class="item-inactive"><a href="link3.html"><span class="bold">third item</span></a></li>
            <li class="item-1"><a href="link4.html">forth item</a></li>
            <li class="item-0"><a href="link5.html">fifth item</a></li>
        </url>
    </div>
</body></html>

我们还可以从文件中读取html代码：

html=etree.parse('hello.html')

在路上的小王

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python数据解析

lxml库基本使用：我们可以用它来解析HTML代码，并且在解析html代码的时候，如果HTML代码不规范，它会自动进行补全。test='''<div> <url> <li class="item-0"><a href="link1.html">first item</a></li> <li class="item-1"><a href="link2.
复制链接

扫一扫