Python 3的bytes/str之别 codecs模块

最新推荐文章于 2025-07-18 19:00:00 发布

转载最新推荐文章于 2025-07-18 19:00:00 发布 · 1.2w 阅读

Python 专栏收录该内容

25 篇文章

订阅专栏

本文详细介绍了Python3中bytes和str类型的本质区别及其重要性。解释了文本和二进制数据如何通过编码和解码相互转换，并通过实例演示了如何使用codecs模块处理字符编码。

一、Python 3的bytes/str之别

原文：The bytes/str dichotomy in Python 3

了解了bytes/str之别，理解codecs模块就容易了。

Python 3最重要的新特性大概要算是对文本和二进制数据作了更为清晰的区分。文本总是Unicode，由str类型表示，二进制数据则由bytes类型表示。Python 3不会以任意隐式的方式混用str和bytes，正是这使得两者的区分特别清晰。你不能拼接字符串和字节包，也无法在字节包里搜索字符串（反之亦然），也不能将字符串传入参数为字节包的函数（反之亦然）。这是件好事。

不管怎样，字符串和字节包之间的界线是必然的，下面的图解非常重要，务请牢记于心：

enter image description here

字符串可以编码成字节包，而字节包可以解码成字符串。

>>> '€20'.encode('utf-8')
b'\xe2\x82\xac20'
>>> b'\xe2\x82\xac20'.decode('utf-8')
'€20'

这个问题要这么来看：字符串是文本的抽象表示。字符串由字符组成，字符则是与任何特定二进制表示无关的抽象实体。在操作字符串时，我们生活在幸福的无知之中。我们可以对字符串进行分割和分片，可以拼接和搜索字符串。我们并不关心它们内部是怎么表示的，字符串里的每个字符要用几个字节保存。只有在将字符串编码成字节包（例如，为了在信道上发送它们）或从字节包解码字符串（反向操作）时，我们才会开始关注这点。

传入encode和decode的参数是编码（或codec）。编码是一种用二进制数据表示抽象字符的方式。目前有很多种编码。上面给出的UTF-8是其中一种，下面是另一种：

>>> '€20'.encode('iso-8859-15')
b'\xa420'
>>> b'\xa420'.decode('iso-8859-15')
'€20'

编码是这个转换过程中至关重要的一部分。离了编码，bytes对象b'\xa420'只是一堆比特位而已。编码赋予其含义。采用不同的编码，这堆比特位的含义就会大不同：

>>> b'\xa420'.decode('windows-1255')
'₪20'

二、codecs 模块简介

codecs是encoders和decoders的缩写。

codecs模块为我们解决的字符编码的处理提供了lookup方法，它接受一个字符编码名称的参数，并返回指定字符编码对应的codecs.CodecInfo 对象，该对象包含了 encoder、decoder、StreamReader和StreamWriter的函数对象和类对象的引用。为了简化对lookup方法的调用， codecs还提供了getencoder(encoding)、getdecoder(encoding)、getreader(encoding)和 getwriter(encoding)方法；进一步，简化对特定字符编码的StreamReader、StreamWriter和 StreamReaderWriter的访问，codecs更直接地提供了open方法，通过encoding参数传递字符编码名称，即可获得对 encoder和decoder的双向服务。

这个模块的强大之处在于它提供了流的方式来处理字符串编码，当处理的数据很多时，这种方式很有用。
你可以使用IncrementalEncoder和IncrementalDecoder，但是强烈建议使用StreamReader和StreamWriter，因为使用它们会大大简化你的代码。

例如，有一个test.txt的文件，它的编码为gbk，现在我需要将它的编码转换为utf8，可以编写如下代码：

#coding:utf8 2 
import codecs
# 打开文件 如果此处用codecs.open()方法打开文件，就不用创建reader和writer 
fin = open('test.txt', 'r') 
fout = open('utf8.txt', 'w') 
# 获取 StreamReader 
reader = codecs.getreader('gbk')(fin) 
# 获取 StreamWriter 
writer = codecs.getwriter('utf8')(fout) 
din = reader.read(10) 
while din: 
    writer.write(din) 
    din = reader.read(10)