python中的编码问题

最新推荐文章于 2024-05-22 20:26:52 发布

up1012

最新推荐文章于 2024-05-22 20:26:52 发布

阅读量216

点赞数

分类专栏： python 文章标签： python编码

本文链接：https://blog.csdn.net/up1012/article/details/81286650

版权

python 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

ASCII 占1个字节，只支持英文
GB2312 占2个字节，支持6700+汉字
GBK GB2312的升级版，支持21000+汉字
Unicode 2-4字节支持全球语言
UTF是对unicode进行转换，以便于在存储和网络传输时可以节省空间! 分为以下三种：
- UTF-8：使用1、2、3、4个字节表示所有字符；优先使用1个字符、无法满足则使增加一个字节，最多4个字节。英文占1个字节、欧洲语系占2个、东亚占3个，其它及特殊字符占4个
- UTF-16：使用2、4个字节表示所有字符；优先使用2个字节，否则使用4个字节表示。
- UTF-32：使用4个字节表示所有字符；

python2中字符编码

python2中的编码默认是ascii编码，可以在文件头加# _*_coding:utf-8/gbk _*_ 来实现中文编码。python2解释器仅以文件头声明的编码去解释你的代码，加载到内存后，你的文件编码是utf-8,加载到内存里，你的变量字符串就也是utf-8。

python2中str=bytes。通过对字符串（str/bytes）decode，可以得到unicode类型，对unicode encode来编码回字符串。

>>> s = '中国'
>>> s1 = s.decode('gbk')
>>> print s1, type(s1)
中国 <type 'unicode'>
>>> s2 = s1.encode('utf-8')
>>> print s2, type(s2)
涓浗 <type 'str'>

上面是在windows的cmd下的python2解释环境运行的，win的cmd是gbk编码，所以print s2 是乱码。

python3中的字符编码

python3默认在内存中用unicode编码，python3中str不等于bytes且没有unicode类型。

str-->encode-->bytes, bytes-->decode-->str

>>> s = '中国'
>>> print(s)
中国
>>> s1 = s.encode('utf-8')
>>> print(s1, type(s1))
b'\xe4\xb8\xad\xe5\x9b\xbd' <class 'bytes'>
>>> s2 = s1.decode('utf-8')
>>> print(s2, type(s2))
中国 <class 'str'>

上面的utf-8编码之所以能在windows cmd下显示正常，是因为到了内存里python3解释器把utf-8转成了unicode 。

up1012

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python中的编码问题

ASCII 占1个字节，只支持英文 GB2312 占2个字节，支持6700+汉字 GBK GB2312的升级版，支持21000+汉字 Unicode 2-4字节支持全球语言 UTF是对unicode进行转换，以便于在存储和网络传输时可以节省空间! 分为以下三种： UTF-8：使用1、2、3、4个字节表示所有字符；优先使用1个字符、无法满足则使增加一个字节，最多4个字节。英文占1个字...
复制链接

扫一扫