关于\x开头的字符串编码转换中文解决方法

最新推荐文章于 2025-11-06 11:21:05 发布

原创最新推荐文章于 2025-11-06 11:21:05 发布 · 10w+ 阅读

·

48

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#python #乱码 #字符串

其它专栏收录该内容

4 篇文章

订阅专栏

本文介绍了解决Python爬虫过程中遇到的UTF-8编码问题的方法，特别是针对Python 3中从网页抓取的数据出现乱码的情况。通过一系列步骤，包括字符串的编码转换及使用urllib库的unquote方法，最终成功解析并显示中文。

该文章已生成可运行项目，

做爬虫可能经常遇到爬取到的数据存在编码问题，简直让人头疼，比如爬取到的是这样的：

例如：
\xe4\xbd\xa0\xe5\xa5\xbd\xe4\xb8\x96\xe7\x95\x8c
中文是：你好世界

上面这个是utf-8编码，但数据类型是字符串类型，而不是bytes类型的utf-8编码。

这样会导致一个结果：如果直接输出，显示的是乱码，也不能使用decode进行utf-8解码得到中文。

在python2中，中文指定utf-8格式，字符串存入内存就是utf-8编码格式，直接输出就是中文，就不存在这个问题；

而python3中，字符串存入内存是以unicode编码格式存入的，输出的是默认的utf-8编码格式，所以得到的是乱码。

可能有人会说，既然得到的是utf-8编码，在前面加上 " b " ，字符串就是bytes类型了，再利用decode进行解码不就可以得到中文吗？但显然，这是行不通的，你不可能去手动一个个添加，那有没有其他方法呢？

答案肯定是有的，既然知道这个字符串是utf-8编码的，那么我换种方式，只要将字符串中的 " \x " 改为 " % " 利用urllib中的unquote方法解码就可以得到中文了，因为url中的中文utf-8编码和这里的区别就是url中编码是%开头。

那么其实只要对utf-8字符串反向转换就行，先将字符串编码指定为unicode_escape

s = '\xe4\xbd\xa0\xe5\xa5\xbd\xe4\xb8\x96\xe7\x95\x8c'
s = s.encode('unicode_escape')

得到bytes类型数据（单斜杠变成双斜杠）

b'\\xe4\\xbd\\xa0\\xe5\\xa5\\xbd\\xe4\\xb8\\x96\\xe7\\x95\\x8c'

接着再对bytes类型进行utf-8解码，得到字符串，将字符串中的 " \x " 替换为 " % "

ss = s.decode('utf-8').replace('\\x', '%')

替换作用就是将字符串改为url的utf-8编码格式

%e4%bd%a0%e5%a5%bd%e4%b8%96%e7%95%8c

最后利用urllib中的unquote方法将url编码解码，得到中文

un = parse.unquote(ss)

本文章已经生成可运行项目

评论 7

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。