Python3中的字符编码

最新推荐文章于 2024-08-14 14:57:30 发布

PengQ1

最新推荐文章于 2024-08-14 14:57:30 发布

阅读量4.6k

点赞数 1

分类专栏： Python 文章标签：字符编码 Python chardet

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Bubbler_726/article/details/81671974

版权

本文对比了Python2和Python3在字符编码上的差异，指出Python3中所有字符串以Unicode存储，不再需要decode。介绍了Python2中隐式编码导致的问题，并推荐使用chardet库来检测文本编码。此外，还讨论了open()函数在处理中文时的默认编码情况。

摘要由CSDN通过智能技术生成

Python2中的头文件

英语是世界上最流行的语言，任何IDE中文本的编码方式几乎都是ASCII，但是，如果想在编译环境中正常显示中文，就需要付出一些额外的努力。对于Python2来说，就面临这个“中文能否正常显示”的问题，因此，为了让编译器知道这些字符是中文，就不能使用ASCII编码了，但是同时又得兼容ASCII，于是，‘utf-8’是一个不错的选择。我们常常在程序最开始加上，

但是话说回来，对于python3来说，默认的编码方式就是'utf-8', 完全不存在此问题，所以也就不用加这一行了。

Python2 与 Python3 在字符编码领域的区别

习惯了Python2的同学，如果直接进行Python3的开发，一定会被此问题大大困扰，因为楼主就因为此问题搞的异常痛苦。

你一定会发现一个问题，那就是，对于str的变量，将无法decode了，会提示，str对象没有decode方法！这是为什么呢？因为，在Python3里面，所有的字符串均是以Unicode码存储的! 本身就是Unicode，自然也就不需要decode了，只需要encode即可。要知道，如果是Python2，如果想对一个字符串进行编码的话，要首先将其decode成unicode,然后再进行encode，而Python3完全省掉了这一步。

上一节有提到，gb18030,gbk,gb2312这三者是向下兼容的，以下在Python3中做一个小实验，展示了如何将gb2312、gbk和utf-8相互转换。

同时，我们也可以发现，常用的汉字用“UTF-8”编码大约占3字节。

那么，Python2 和 Python3中有关字符编码，到底是怎样一种关系呢？

本质上来说，这一点是相当混乱的。这不是楼主说的，而是很多程序员的共识。

在Python3

最低0.47元/天解锁文章

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。