培养Pythonic思维—— 第3条了解bytes与str的区别

最新推荐文章于 2024-08-28 16:14:15 发布

KnightXin

最新推荐文章于 2024-08-28 16:14:15 发布

阅读量636

点赞数

分类专栏：让你的Python有更高的质量文章标签： python 程序人生职场和发展经验分享

本文链接：https://blog.csdn.net/qq_42929788/article/details/122653872

版权

让你的Python有更高的质量专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Python有两种类型可以表示字符序列：一种是bytes，另一种是str。bytes 实例包含的是原始数据，即8位的无符号（通常按照ASCII编码标准来显示）。

a=b'h\x65llo'
print(list(a))
print(a)

>>>
[104, 101, 108, 108, 111]
b'hello'

str实例包含的是Unicode码点（code point，也叫代码点），这些码点与人类语言中的文本文字相对应。

a='a\u0300 propos'
print(list(a))
print(a)

>>>
['a', '̀', ' ', 'p', 'r', 'o', 'p', 'o', 's']
à propos

大家一定要记住：str实例不一定非要用某一种固定的方式编码成二进制数据，bytes实例也不一定非要按照某一种固定的方案编码查成二进制数据，bytes实例也不一定非要按照某一种固定的方案解码成字符串。要把Unicode数据转换成二进制数据，必须调用str的encode方法。要把二进制数据转换成Unicode数据，必须调用bytes的decode方法。调用这些方法的时候，可以明确自己要使用的编码方案，也可以采用系统默认的方案，通常是指UTF-8（但有时也不一定，下面就会讲到这个问题）。
编写Python程序的时候，一定要把解码和编码的操作放在界面最外层来做，让程序的核心部分可以使用Unicode数据来运作，这种办法通常叫做Unicode三明治（Unicode sandwich）。程序核心部分，应该用str类型来表示Unicode数据，并且不要锁定到某种字符编码上面。这样可以让程序接受许多种文本编码（例如Latin-1、Shift JIS及Big5），并把它们都转化成Unicode，也能保证输出的问泵信息都是同一种标准（最好是UTF-8）编码的。
两种不同的字符类型与Python中两种常见的使用情况相对应：

开发者需要操作原始8位值序列，序列里面的这些8位值合起来表示一个应该按UTF-8或其他标准编码的字符串
开发者需要操作通用的Unicode字符串，而不是操作某种特定编码的字符串

我们通常需要编写两个辅助函数（helper function），以便在这两种情况之间相互转换，确保输入值类型符合开发者的预期形式。
第一个辅助函数接受bytes或str实例，并返回str：

def to_str(bytes_or_str):
   if isinstance(bytes_or_str,bytes):
       value = bytes_or_str.decode('utf-8')
   else:
       value = bytes_or_str
   return value #Instanse of str
print(repr(to_str(b'foo')))
print(repr(to_str('bar')))
>>>
'foo'
'bar'

第二个辅助函数也接受bytes或str实例，但它返回的是bytes：

def to_bytes(bytes_or_str):
    if isinstance(bytes_or_str,str):
        value = bytes_or_str.encode('utf-8')
    else:
        value = bytes_or_str
    return value #Instanse of bytes
print(repr(to_bytes(b'foo')))
print(repr(to_bytes('bar')))

在Python中使用原始8位值与Unicode字符串时，有两个问题要注意。
第一个问题是，bytes与str这两种类型似乎是以相同的方式工作的，但其实例并不相互兼容，所以在传递字符序列的时候必须考虑好其类型。
可以用+操作符讲bytes添加到bytes，str也可以这样。

print(b'one' + b'two')
print('one' + 'two')

>>>
b'onetwo'
onetwo

但是不能将str实例添加到bytes实例：

b'one' + 'two'

>>>
Traceback ...
TypeError: can't concat str to bytes

也不能将bytes实例添加到str实例：

'one' + b'two'

>>>
Traceback ...
TypeError: can only concatenate str (not "bytes") to str

bytes与bytes之间可以用二元操作符（binary operator）来比较大小，str与str之间也可以：

assert 'red' > 'blue'
assert b'red' > b'blue'

但是str实例不能与bytes实例比较：

assert 'red' > b'blue'

>>>
Traceback...
TypeError: '>' not supported between instances of 'str' and 'bytes'

反过来也一样，也就是说bytes实例不能与str实例比较。
判断bytes与str实例是否相等，总是会评估为假（False），即便这两个实例表示的字符完全相同，它们也不相等。例如，在下面这个例子里，它们表示的字符床都相当于ASCLII编码之中的foo。

print(b'foo' == 'foo')
>>>
False

两种类型的实例都可以出现在%操作符的右侧，用来替换左侧那个格式字符串（format string）里面的%s。

print(b'red %s' % b'blue')
print('red %s' % 'blue')

>>>
b'red blue'
red blue

如果格式字符串是bytes类型，那么不能用str实例来替换其中的%s，因为Python不知道这个str应该按照什么方案来编码。

print(b'red %s' % 'blue')

>>>
Traceback ...
TypeError: %b requires a bytes-like object, or an object that implements __bytes__, not 'str'

但反过来却可以，也就是说如果是格式字符串是str类型，则可以用bytes实例来替换其中的%s，问题是，这可能和你想要的结果不一致。

print('red %s' % b'blue')

>>>
red b'blue'

这样做，会让系统在bytes实例上面调用_repr_方法，然后用这次调用所得到的结果替换格式字符串里的%s，因此程序会直接输出b’blue’，而不是像你想象的那样，输出blue本身。
第二个问题发生在操作文件句柄的时候，这里的句柄指由内置的open函数返回的句柄。这样的句柄默认需要使用Unicode字符串操作，而不能采用原始的bytes。习惯了Python 2的开发者，尤其容易碰到这个问题，进而导致程序出现奇怪的错误。例如，像文件写入二进制数据的时候，下面这种写法其实是错误的。

with open('data.bin.', 'w') as f:
    f.write(b'\xf1\xf2\xf3\xf4\xf5') 
>>>
Traceback ...
TypeError: write() argument must be str, not bytes

程序发生异常是因为在调用open函数时，指定的是‘w’模式，所以系统要求必须以文本模式写入，如果想用二进制模式，那应该指定‘wb’才对。在文本模式下，write方法接受的是包含Unicode数据的str实例，不是包含二进制数据的bytes实例。所以，我们得把模式改成‘wb’来解决问题。

with open('data.bin.', 'wb') as f:
    f.write(b'\xf1\xf2\xf3\xf4\xf5')

读取文件的时候也有类似的问题。例如，如果要把刚才写入的二进制文件读出来，那么就不能用下面这种写法。

with open('data.bin', 'r') as f:
    data = f.read()
>>>
Traceback ...
UnicodeDecodeError: 'gbk' codec can't decode byte 0xf5 in position 4: incomplete multibyte sequence

程序出错，是因为在调用open函数时指定的是‘r’模式，所以系统要求必须以文本模式来读取。若要用二进制格式读取，应该指定‘rb’。为了修正错误，需要把模式改为‘rb’。
另一种改法是在调用open函数的时候，通过encoding参数明确指定编码标准，以确保平台特有的一些行为不会干扰代码的运行效果。例如，假设刚才写到文件里的那些二进制数表示的是一个采用‘cp1252’标准（cp1252是一种老式的Windows编码方案）来编码的字符串，则可以这样写：

with open('data.bin', 'r', encoding='cp1252') as f:
    data = f.read()

这样程序就不出现异常了，但返回的字符串也与读取原始字节数据所返回的有很大区别。通过这个例子，我们要提醒自己注意当前操作系统默认的编码标准（可以执行python3 -c 'import locale; print(locale.getpreferredencoding())'命令查看，了解它与你所期望的是否一致。如果不确定，那就在调用open 时明确指定encoding参数。

KnightXin

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
培养Pythonic思维—— 第3条了解bytes与str的区别

Python有两种类型可以表示字符序列：一种是bytes，另一种是str。bytes 实例包含的是原始数据，即8位的无符号（通常按照ASCII编码标准来显示）。a=b'h\x65llo'print(list(a))print(a)>>>[104, 101, 108, 108, 111]b'hello'str实例包含的是Unicode码点（code point，也叫代码点），这些码点与人类语言中的文本文字相对应。a='a\u0300 propos'print(list(
复制链接

扫一扫