Python中的字符编码

最新推荐文章于 2023-05-26 11:43:30 发布

hustqb

最新推荐文章于 2023-05-26 11:43:30 发布

阅读量649

点赞数

分类专栏： Python 文章标签： python 编码

本文链接：https://blog.csdn.net/hustqb/article/details/72445729

版权

Python 专栏收录该内容

21 篇文章 3 订阅

订阅专栏

了解各种字符编码，了解Python中对各种字符编码的辨别与转换。

字符编码

字符编码的起源和意义网上的资源很多，不再详述…字符编码分两种：unicode和其他。

这是因为unicode是一种类似于符号集的抽象编码，它只规定了符号的二进制代码，却没有规定这个二进制代码如何存储。它只是一种内部表示，而不能直接保存。Python中字符的内部表示就是unicode，也就是说，在Python解释器面前，所有的字符都根据它们的编码方式转换成了unicode(例如：.py源代码中的编码方式声明为utf-8，解释器在运行时会将其做utf-8→unicode的操作，在输出至控制台或其他时，在转成utf-8)。据我所知，Java内部的字符也是unicode。
所以存储unicode时需要规定一种存储形式，就是上文中字符编码的另一类“其他”，比如utf-8或utf-16等。理论上unicode已经可以容纳全世界所有语言文字的编码方案。

在字符编码的第二种“其他”中，又有很多编码方式。

比如GB开头的“国标”，包括GB2312(GB2312-80)，GBK，
GB18030，表示范围从小到大递增，而且基本向下兼容。此外经常遇到一种叫做CP936的编码(windows
XP的cmd默认编码)，实际上大概可以看做是GBK。再比如最早出现的ascii码。当然，现在越来越多使用的是utf-8字符编码。

Python中的字符编码

判断编码类型

在Python中判断字符的编码类型主要有三种：

isinstance('字符串', str)判断是否是ascii类型的字符串，utf-8、utf-16、GB等都是ascii类型的字符串。isinstance('字符串', unicode)判断是不是unicode类型。
'字符串'.__class__可以输出<type 'str'>或<type 'unicode'>
type('字符串')可以输出<type 'str'>或<type 'unicode'>

编码转换

从具体编码(ISO-8859-1[ascii码]，utf-8，utf-16，GBK，GB2312等)转换为unicode(解码)：

unicode('字符串', 'utf-8')  # 方法一
'字符串'.decode('utf-8')  # 方法二
u'字符串'  # 方法三

从unicode到具体编码（编码）：

'字符串'.decode('utf-8'[, 'ignore']).encode('utf-8')

PS: 编码和解码前后的具体编码类型应该一致，否则不会得到正确的原始数据。

编码类型声明

在Python2中默认的编码类型是ascii码，也就是说Python解释器在工作时，将源文件中的ascii码解码成unicode。但是，由于ascii码对中文无能为力，所以当文件中有中文的时候，不对文件进行编码类型的声明是会报错的。
声明方式：
在文件头加上-*- coding: utf-8 -*-