Python小技巧：bytes与str的区别(1)

2401_84003941

于 2024-04-21 09:41:23 发布

阅读量886

点赞数 17

分类专栏：程序员文章标签： python java 前端

本文链接：https://blog.csdn.net/2401_84003941/article/details/138023890

版权

程序员专栏收录该内容

282 篇文章 1 订阅

订阅专栏

‘’’

遇到问题没人解答？小编创建了一个Python学习交流QQ群：778463939

寻找有志同道合的小伙伴，互帮互助,群里还有不错的视频学习教程和PDF电子书！

‘’’

print(b’one’ + b’two’)

print(‘one’ + ‘two’)

b’onetwo’

onetwo

但是不能将str实例添加到bytes实例：

b’one’ + ‘two’

Traceback …

TypeError: can’t concat str to bytes

也不能将bytes实例添加到str实例：

‘one’ + b’two’

Traceback …

TypeError: can only concatenate str (not “bytes”) to str

bytes与bytes之间可以用二元操作符(binary operator)来比较大小，str与str之间也可以：

assert b’red’ > b’blue’

assert ‘red’ > ‘blue’

但是str实例不能与bytes实例比较：

assert ‘red’ > b’blue’

反过来也一样，也就是说bytes实例不能与str实例比较：

assert b’blue’ < ‘red’

判断bytes与str实例是否相等，总是会评估为假(False)，即便这两个实例表示的字符完全相同，它们也不相等。例如，在下面这个例子里，它们表示的字符串都相当于ASCII编码之中的foo。

print(b’foo’ == ‘foo’)

False

两种类型的实例都可以出现在%操作符的右侧，用来替换左侧那个格式字符串(format string)里面的%s。

‘’’

遇到问题没人解答？小编创建了一个Python学习交流QQ群：778463939

寻找有志同道合的小伙伴，互帮互助,群里还有不错的视频学习教程和PDF电子书！

‘’’

print(b’red %s’ % b’blue’)

print(‘red %s’ % ‘blue’)

b’red blue’

red blue

如果格式字符串是bytes类型，那么不能用str实例来替换其中的%s，因为Python不知道这个str应该按照什么方案来编码。

print(b’red %s’ % ‘blue’)

但反过来却可以，也就是说如果格式字符串是str类型，则可以用bytes实例来替换其中的%s，问题是，这可能跟你想要的结果不一样。

print(‘red %s’ % b’blue’)

red b’blue’

这样做，会让系统在bytes实例上面调用__repr__方法，然后用这次调用所得到的结果替换格式字符串里的%s，因此程序会直接输出b’blue’，而不是像你想的那样，输出blue本身。

第二个问题发生在操作文件句柄的时候，这里的句柄指由内置的open函数返回的句柄。这样的句柄默认需要使用Unicode字符串操作，而不能采用原始的bytes。习惯了Python 2的开发者，尤其容易碰到这个问题，进而导致程序出现奇怪的错误。例如，向文件写入二进制数据的时候，下面这种写法其实是错误的。

with open(‘data.bin’, ‘w’) as f:

f.write(b’\xf1\xf2\xf3\xf4\xf5’)

Traceback …

TypeError: write() argument must be str, not bytes

程序发生异常是因为在调用open函数时，指定的是’w’模式，所以系统要求必须以文本模式写入。如果想用二进制模式，那应该指定’wb’才对。在文本模式下，write方法接受的是包含Unicode数据的str实例，不是包含二进制数据的bytes实例。所以，我们得把模式改成’wb’来解决该问题。

with open(‘data.bin’, ‘wb’) as f:

f.write(b’\xf1\xf2\xf3\xf4\xf5’)

读取文件的时候也有类似的问题。例如，如果要把刚才写入的二进制文件读出来，那么不能用下面这种写法。

with open(‘data.bin’, ‘r’) as f:

data = f.read()

程序出错，是因为在调用open函数时指定的是’r’模式，所以系统要求必须以文本模式来读取。若要用二进制格式读取，应该指定’rb’。以文本模式操纵句柄时，系统会采用默认的文本编码方案处理二进制数据。

所以，上面那种写法会让系统通过bytes.decode把这份数据解码成str字符串，再用str.encode把字符串编码成二进制值。然而对于大多数系统来说，默认的文本编码方案是UTF-8，所以系统很可能会把b’\xf1\xf2\xf3\xf4\xf5’当成UTF-8格式的字符串去解码，于是就会出现上面那样的错误。为了修正错误，需要把模式改成’rb’。

‘’’

遇到问题没人解答？小编创建了一个Python学习交流QQ群：778463939

寻找有志同道合的小伙伴，互帮互助,群里还有不错的视频学习教程和PDF电子书！

‘’’

with open(‘data.bin’, ‘rb’) as f:

data = f.read()

assert data == b’\xf1\xf2\xf3\xf4\xf5’

另一种改法是在调用open函数的时候，通过encoding参数明确指定编码标准，以确保平台特有的一些行为不会干扰代码的运行效果。例如，假设刚才写到文件里的那些二进制数据表示的是一个采用’cp1252’标准(cp1252是一种老式的Windows编码方案)来编码的字符串，则可以这样写：

with open(‘data.bin’, ‘r’, encoding=‘cp1252’) as f:

data = f.read()

assert data == ‘ñòóôõ’

这样程序就不会出现异常了，但返回的字符串也与读取原始字节数据所返回的有很大区别。通过这个例子，我们要提醒自己注意当前操作系统默认的编码标准(可以执行python3 -c 'import locale; print(locale.getpreferredencoding())'命令查看)，了解它与你所期望的是否一致。如果不确定，那就在调用open时明确指定encoding参数。

要点

bytes包含的是由8位值所组成的序列，str包含的是由Unicode码点所组成的序列。
我们可以编写辅助函数来确保程序收到的字符序列确实是期望要操作的类型(要知道自己想操作的到底是Unicode码点，还是原始的8位值。用UTF-8标准给字符串编码，得到的就是这样的一系列8位值)。
bytes与str这两种实例不能在某些操作符(例如>、==、+、%操作符)上面混用。
从文件中读取二进制数据(或者把二进制数据写入文件)时，应该用’rb’(‘wb’)这样的二进制模式打开文件。
自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数Python工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年Python开发全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。