解决PyCharm下python使用XPath解析html，获取文本时中文乱码问题

最新推荐文章于 2022-02-27 16:23:54 发布

置顶琼觞0543

最新推荐文章于 2022-02-27 16:23:54 发布

阅读量6.3k

点赞数 9

分类专栏： Python 文章标签： XPath python 中文乱码解析网页

本文链接：https://blog.csdn.net/qq_23944945/article/details/83961347

版权

Python 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

解决PyCharm下python使用XPath解析html，获取文本时中文乱码问题

解决办法01
- 源文件test.py如下：
- 运行结果如下：
解决办法02(推荐)

最近在学习XPath解析库，但是获取中文文本时总是乱码，网上看了些教程，然并卵，最后只好自己解决：

文本文件html.txt如下：

<p class="name">
<a href="/films/1297" title="肖申克的救赎" data-act="boarditem-click" data-val="{movieId:1297}">肖申克的救赎</a>
</p>

源文件test.py如下：

from lxml import etree

# 此处采取直接读取文本进行解析的方法
html = etree.parse('html.txt', etree.HTMLParser())
result = html.xpath('//a/text()')
print(result)

运行结果(乱码)如下：


['Ð¤Éê¿ËµÄ¾ÈÊê']	# html.txt编码为：GBK时的结果
['è\x82\x96ç\x94³å\x85\x8bç\x9a\x84æ\x95\x91èµ\x8e']	# html.txt编码为：UTF-8时的结果

解决办法01

先使用open()函数读取html.txt，再将字符串传递给etree.HTML()

源文件test.py如下：

from lxml import etree

f = open('html.txt', 'r')	# 如果文件编码为UTF-8, 记得添加参数：encoding='utf8'
text = f.read()

html = etree.HTML(text, etree.HTMLParser())
result = html.xpath('//a/text()')
print(result)

运行结果如下：


['肖申克的救赎']

解决办法02(推荐)

为解析器etree.HTMLParser()传递一个参数：encoding=‘gbk’，记得，此处编码与文件html.txt一致
推荐该方法，简洁

源文件test.py如下：

from lxml import etree

html = etree.parse('html.txt', etree.HTMLParser(encoding='gbk'))
result = html.xpath('//a/text()')
print(result)

运行结果如下：


['肖申克的救赎']

结语

我正在看的那本书根本就没有使用etree.HTMLParser(encoding=‘gbk’)，一律使用etree.HTMLParser()默认版本，多亏了PyCharm的补全功能，让我看见了etree.HTMLParser()的参数列表，第一个参数就是：encoding=None，然后试了下果然解决了中文乱码问题！

琼觞0543

关注

9
点赞
踩
17

收藏

觉得还不错? 一键收藏
打赏
0
评论
解决PyCharm下python使用XPath解析html，获取文本时中文乱码问题

解决PyCharm下python使用XPath解析html，获取文本时中文为乱码问题文本文件html.txt如下：源文件test.py如下：运行结果(乱码)如下：解决办法01源文件test.py如下：运行结果如下：解决办法02(推荐)源文件test.py如下：运行结果如下：结语最近在学习XPath解析库，但是获取中文文本时总是乱码，网上看了些教程，然并卵，最后只好自己解决：文本文件html.t...
复制链接

扫一扫