bytearray() 将一个数据结构(如字符串string)转成字节数组。这个数组里的元素是可变的,并且每个元素的值范围: 0 <= x < 256。
举例[1]:
array1=bytearray('runoob', 'utf-8')
print(array1)
for value in array1:
print(value)
array1=bytearray('runoob', 'utf-16')
print(array1)
for value in array1:
print(value)
array1=bytearray('你好', 'utf-16')
print(array1)
for value in array1:
print(value)
结果是:
bytearray(b'runoob')
114
117
110
111
111
98
bytearray(b'\xff\xfer\x00u\x00n\x00o\x00o\x00b\x00')
255
254
114
0
117
0
110
0
111
0
111
0
98
0
bytearray(b'\xff\xfe`O}Y')
255
254
96
79
125
89
“你”的Unicode是U+4F60,对应十进制0x4F-->79,0x60-->96。“好”的Unicode是U+597D,对应十进制0x59-->89,0x7D-->125。
UTF-16需要通过字符串开始的BOM(Byte Order Mark)的字符来表明文件是Big Endian还是Little Endian[3]。U+FEFF表示Big Endian,U+FFFE表示Little Endian。
Big Endian是指低地址存放最高有效字节(MSB,Most Significant Byte),而Little Endian则是低地址存放最低有效字节(LSB,Least Significant Byte)[2]。如下图示。
即Big Endian从低地址位开始排,Big End first。Little Endian则Little End first。
如果使用utf-16be和utf-16le编码的话[3]:
array1=bytearray('你好', 'utf-16be')
print(array1)
for value in array1:
print(value)
array1=bytearray('你好', 'utf-16le')
print(array1)
for value in array1:
print(value)
结果为:
bytearray(b'O`Y}')
79
96
89
125
bytearray(b'`O}Y')
96
79
125
89
MSB原意是Most Significant Bit,LSB,Least Significant Bit,如下图示。
参考:
[1]Python bytearray() 函数,https://www.runoob.com/python/python-func-bytearray.html
[2]lspbeyond,关于Big Endian 和 Little Endian,2008-04-20,https://blog.csdn.net/sunshine1314/article/details/2309655
[3]yzl050819,UNICODE编码UTF-16 中的Endian(FE FF) 和 Little Endian(FF FE),2017-04-05,https://www.cnblogs.com/yzl050819/p/6667702.html