python 中文乱码问题深入分析

最新推荐文章于 2024-05-22 20:26:52 发布

kiki113

最新推荐文章于 2024-05-22 20:26:52 发布

阅读量2.1w

点赞数

分类专栏： python 文章标签： python character codec ide 存储 module

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kiki113/article/details/4062063

版权

本文深入探讨Python中str和unicode的关系，包括它们的转换、默认编码问题，以及处理不同编码文件的方法。通过实例解析中文乱码产生的原因，并介绍编码声明在源文件中的作用。

摘要由CSDN通过智能技术生成

本文原创，如需转载，请注明出处。

在本文中，以'哈'来解释作示例解释所有的问题，“哈”的各种编码如下：

1. UNICODE (UTF8-16)，C854；

2． UTF-8，E59388；

3． GBK，B9FE。

一、python中的str和unicode

一直以来，python中的中文编码就是一个极为头大的问题，经常抛出编码转换的异常，python中的str和unicode到底是一个什么东西呢？

在python中提到unicode，一般指的是unicode对象，例如'哈哈'的unicode对象为

u'/u54c8/u54c8'

而str，是一个字节数组，这个字节数组表示的是对unicode对象编码(可以是utf-8、gbk、cp936、GB2312)后的存储的格式。这里它仅仅是一个字节流，没有其它的含义，如果你想使这个字节流显示的内容有意义，就必须用正确的编码格式，解码显示。

例如：

python 字符串和unicode

对于unicode对象哈哈进行编码，编码成一个utf-8编码的str－s_utf8,s_utf8就是是一个字节数组，存放的就是'/xe5/x93/x88/xe5/x93/x88'，但是这仅仅是一个字节数组，如果你想将它通过print语句输出成哈哈，那你就失望了，为什么呢？

因为print语句它的实现是将要输出的内容传送了操作系统，操作系统会根据系统的编码对输入的字节流进行编码，这就解释了为什么utf-8格式的字符串“哈哈”，输出的是“鍝堝搱”，因为'/xe5/x93/x88/xe5/x93/x88'用GB2312去解释，其显示的出来就是“鍝堝搱”。这里再强调一下，str记录的是字节数组，只是某种编码的存储格式，至于输出到文件或是打印出来是什么格式，完全取决于其解码的编码将它解码成什么样子。

这里再对print进行一点补充说明：当将一个unicode对象传给print时ÿ

最低0.47元/天解锁文章

关注

0
点赞
踩
24

收藏

觉得还不错? 一键收藏
8
评论
python 中文乱码问题深入分析

本文原创，如需转载，请注明出处。在本文中，以哈来解释作示例解释所有的问题，“哈”的各种编码如下： 1. UNICODE (UTF8-16)，C854； 2． UTF-8，E59388； 3． GBK，B9FE。一、python中的str和unicode一直以来，python中的中文编码就是一个极为头大的问题，经常抛出编码转换的异常，python中的str
复制链接

扫一扫

专栏目录

评论 8

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。