lxml库使用中遇到的编码问题

在使用lxml库处理包含中文的HTML文件时,遇到编码问题。通过设置'utf-8'编码,确保文件能正常打开并正确解码中文内容。如果省略或更改编码方式,可能会导致中文显示为unicode编码或保持原始编码格式,无法正确显示。
摘要由CSDN通过智能技术生成

lxml库使用中遇到的编码问题1

————
代码如下:

from lxml import etree

with open('4.html', 'r', encoding='utf-8') as f:
    html = f.read()
print(html)
html = etree.HTML(html)
result = etree.tostring(html, encoding='utf-8')
print(result.decode('utf-8'))

其中4.html的文件内容是:

<dd>
                        <i class="board-index board-index-1">1</i>
    <a href="/films/1203" title="霸王别姬" class="image-link" data-act="boarditem-click" data-val="{movieId:1203}">
      <img src="//s3plus.meituan.net/v1/mss_e2821d7f0cfe4ac1bf9202ecf9590e67/cdn-prod/file:5788b470/image/loading_2.e3d934bf.png" alt="" class="poster-default" />
      <img data-src="https://p1.meituan.net/movie/20803f59291c47e1e116c11963ce019e68711.jpg@160w_220h_1e_1c" alt="霸王别姬" class="board-img" />
    </a>
    <div class="board-item-main">
      <div class="board-item-content">
              <div class="movie-item-info">
        <p class="name"><a href="/films/1203" title="霸王别姬" data-act="boarditem-click"
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值