python中cp936什么意思_Python: 终于解决了编码问题

最新推荐文章于 2024-09-16 09:56:46 发布

sony aqua

最新推荐文章于 2024-09-16 09:56:46 发布

阅读量6.2k

点赞数

文章标签： python中cp936什么意思

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_35242523/article/details/112026103

版权

本文围绕Python编码问题展开，作者使用Ulipad编辑器解析网页时遇乱码，Ulipad默认编码是cp936。介绍了编码转换方法，强调以unicode为中间编码，先decode再encode，还说明了代码中字符串默认编码与文件编码关系及判断字符串是否为unicode的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

我个人喜好的Python编辑器是Ulipad，在解析网页的时候，经常会遇到乱码的问题，虽说Windows下Python处理中文一直有各种问题和各种答案。却不适合我的。

最近搜索下来，终于找到了其中的奥秘。Ulipad的默认编码是cp936，可以用以下办法得知

import locale

print locale.getdefaultlocale()[1]

之前试图用重新设置默认编码的方法，没有解决编码问题：

reload(sys)

sys.setdefaultencoding('utf-8')

必须在得到你的字符串之后，先decode到你的文本编辑器默认编码，再encode到你的设置的系统默认编码。

title.decode(sys.getdefaultencoding()).encode(locale.getdefaultlocale()[1])

为什么Python使用过程中会出现各式各样的乱码问题，明明是中文字符却显示成“\xe4\xb8\xad\xe6\x96\x87”的形式？

字符串在Python内部的表示是unicode编码，因此，在做编码转换时，通常需要以unicode作为中间编码，即先将其他编码的字符串解码(decode)成unicode，再从unicode编码(encode)成另一种编码。

decode的作用是将其他编码的字符串转换成unicode编码，如str1.decode('gb2312')，表示将gb2312编码的字符串str1转换成unicode编码。

encode的作用是将unicode编码转换成其他编码的字符串，如str2.encode('gb2312')，表示将unicode编码的字符串str2转换成gb2312编码。

因此，转码的时候一定要先搞明白，字符串str是什么编码，然后decode成unicode，然后再encode成其他编码。

代码中字符串的默认编码与代码文件本身的编码一致。

如：s='中文'

如果是在utf8的文件中，该字符串就是utf8编码，如果是在gb2312的文件中，则其编码为gb2312。这种情况下，要进行编码转换，都需要先用decode方法将其转换成unicode编码，再使用encode方法将其转换成其他编码。通常，在没有指定特定的编码方式时，都是使用的系统默认编码创建的代码文件。

如果字符串是这样定义：s=u'中文'，则该字符串的编码就被指定为unicode了，即python的内部编码，而与代码文件本身的编码无关。因此，对于这种情况做编码转换，只需要直接使用encode方法将其转换成指定编码即可。

如果一个字符串已经是unicode了，再进行解码则将出错，因此通常要对其编码方式是否为unicode进行判断：

isinstance(s, unicode) #用来判断是否为unicode

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。