详解Python字符串编码格式

最新推荐文章于 2022-08-09 15:27:57 发布

dongfuguo

最新推荐文章于 2022-08-09 15:27:57 发布

阅读量279

点赞数

文章标签：字符串 python java 编程语言大数据

本文链接：https://blog.csdn.net/dongfuguo/article/details/118704621

版权

最早的字符串编码是美国标准信息交换码ASCII，仅对10个数字、26个大写英文字母、26个小写英文字母及一些其他符号进行了编码。ASCII采用1个字节来对字符进行编码，最多只能表示256个符号。

随着信息技术的发展和信息交换的需要，各国的文字都需要进行编码，不同的应用领域和场合对字符串编码的要求也略有不同，于是又分别设计了多种不同的编码格式，常见的主要有UTF-8、UTF-16、UTF-32、GB2312、GBK、CP936、base64、CP437等等。UTF-8编码是国际通用的编码，以1个字节表示英语字符(兼容ASCII)，以3个字节表示中文，还有些语言的符号使用2个字节（例如俄语和希腊语符号）或4个字节，UTF-8对全世界所有国家需要用到的字符进行了编码。

GB2312是我国制定的中文编码，使用1个字节表示英语，2个字节表示中文；GBK是GB2312的扩充，而CP936是微软在GBK基础上开发的编码方式。GB2312、GBK和CP936都是使用2个字节表示中文。

不同编码格式之间相差很大，采用不同的编码格式意味着不同的表示和存储形式，把同一字符存入文件时，写入的内容可能会不同，在理解其内容时必须了解编码规则并进行正确的解码。如果解码方法不正确就无法还原信息，从这个角度来讲，字符串编码也具有加密的效果。

在本文的讨论中，包括本公众号里的绝大多数文章，都是基于Python 3.5.x的，整个Python社区都知道最迟到2020年Python就不再提供维护了，这个时间很可能会提前，要是还有人坚持抱着Python 2.7不放，可能很快就要吃亏的。

在Python 3.x中，字符串有关的类主要是str和bytes，其中bytes是字节串类型。str对象使用encode()方法可以按指定的编码格式编码成为字节串，而bytes对象使用decode()方法并指定正确的编码格式进行解码即可还原为原来的str对象。

>>> '山东烟台'.encode() #默认使用utf8编码

b'\xe5\xb1\xb1\xe4\xb8\x9c\xe7\x83\x9f\xe5\x8f\xb0'

>>> _.decode() #默认使用utf8解码

'山东烟台'

>>> '山东烟台'.encode()

b'\xe5\xb1\xb1\xe4\xb8\x9c\xe7\x83\x9f\xe5\x8f\xb0'

>>> _.decode('gbk') #使用utf8编码再使用gbk解码的结果

'灞变笢鐑熷彴'

Python 3.x完全支持中文字符，默认使用UTF8编码格式，无论是一个数字、英文字母，还是一个汉字，都按一个字符对待和处理。例如在Python 3.5.2中执行下面的代码，从代码中可以看到，在Python 3.x中甚至可以使用中文作为变量名。

>>> import sys

>>> sys.getdefaultencoding() #查看默认编码格式

'utf-8'

>>> s = '中国山东烟台'

>>> len(s) #字符串长度，或者包含的字符个数

>>> s = 'SDIBT'

>>> len(s)

>>> s = '中国山东烟台abcde' #中文与英文字符同样对待，都算一个字符

>>> len(s)

>>> 姓名 = '董付国' #使用中文作为变量名

>>> 年龄 = 39

>>> print(姓名) #输出变量的值

董付国

>>> print(年龄)

这样的就引出了一个问题，文本文件中存放的是字符串信息，自然也有不同的编码格式，这样的话就需要在读写内容时使用正确的编码格式，使用gbk编码的文件无法通过utf8编码正常读写，除非里面全都是ASCII编码范围的字符。Python 3.x中用来打开文件的内置函数open()还提供了一个encoding参数用来指定文件的编码格式，默认使用cp936编码，例如：

>>> fp = open('test1.txt', 'r') #默认使用cp936

>>> fp

<_io.TextIOWrapper name='test1.txt' mode='r' encoding='cp936'>

>>> fp = open('test1.txt', 'r', encoding='utf8') #明确指定使用utf8

>>> fp

<_io.TextIOWrapper name='test1.txt' mode='r' encoding='utf8'>

至于如何读写文本文件内容，请参考我昨天发的文章使用Python读写文本文件内容。

最后一个问题来了，如果是自己生成的文本文件，当然是知道用的什么编码了，如果是别人生成的呢，有没有办法先判断一下使用的是什么编码然后再进行读写呢？强大的Python有个扩展库chardet就是专门用来做这个的。

>>> import chardet

>>> with open('test1.txt', 'rb') as fp:

result = chardet.detect(fp.read())

>>> result #结果的第一项是可信度，有时候可能不是特别准确

{'confidence': 1.0, 'encoding': 'ascii'}

>>> with open('111.txt', 'rb') as fp:

result = chardet.detect(fp.read())

>>> result

{'confidence': 0.73, 'encoding': 'windows-1252'}

>>> with open('222.txt', 'rb') as fp:

result = chardet.detect(fp.read())

>>> result['encoding']

'UTF-8-SIG'

dongfuguo

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
详解Python字符串编码格式

最早的字符串编码是美国标准信息交换码ASCII，仅对10个数字、26个大写英文字母、26个小写英文字母及一些其他符号进行了编码。ASCII采用1个字节来对字符进行编码，最多只能表示256个...
复制链接

扫一扫