python bytes拼接_Python编码基础&bytes和str

最新推荐文章于 2023-08-16 23:53:56 发布

梨飞雪

最新推荐文章于 2023-08-16 23:53:56 发布

阅读量1.9k

点赞数

文章标签： python bytes拼接

本文链接：https://blog.csdn.net/weixin_30781905/article/details/112944824

版权

字符串类型是对人类友好的符号，但计算机只认识一种符号，那就是二进制(binary)数，或者说是数字。

为了用计算机可以理解的数字描述人类使用的字符，我们需要一张数字与字符对应的表。我们都知道在计算机中 1 byte = 8bits，可以存储 0~255共256个值，也就是说 1byte最多可以表示 256 个字符，在最初的计算机世界中，256 足以容纳所有大小写英文字和阿拉伯数字 0~9以及一些常用的符号，于是就有了 ASCII 编码：

ASCII编码表

ASCII码有一个问题，表示英文够用了，但是无法表示中文俄文拉丁文等等。跨语言、跨平台进行文本转换、使用不同的编码格式解析同一串二进制数会出现完全不一样的解释，也就是乱码。

能不能将全世界所有的字符包含在一个集合里，计算机只要支持这一个字符集，就能显示所有的字符，再也不会有乱码了？于是Unicode出现了，Unicode也叫统一码、万国码、单一码。

Unicode很好的支持了多语言环境，避免了乱码的问题。不过它也有确定，它的优点是“全”，伴生着缺点就是“大”。ASCII编码是1个字节，而Unicode编码通常是2个字节。

于是新的问题又出现了：如果统一成Unicode编码，乱码问题从此消失了。但是，如果你写的文本基本上全部是英文的话，用Unicode编码比ASCII编码需要多一倍的存储空间，在存储和传输上就十分不划算。

所以，本着节约的精神，又出现了把Unicode编码转化为“可变长编码”的UTF-8编码。UTF-8编码把一个Unicode字符根据不同的数字大小编码成1-6个字节，常用的英文字母被编码成1个字节，汉字通常是3个字节，只有很生僻的字符才会被编码成4-6个字节。如果你要传输的文本包含大量英文字符，用UTF-8编码就能节省空间。

UTF-8编码有一个额外的好处，就是ASCII编码实际上可以被看成是UTF-8编码的一部分，所以，大量只支持ASCII编码的历史遗留软件可以在UTF-8编码下继续工作。

在计算机内存中，统一使用Unicode编码，当需要保存到硬盘或者需要传输的时候，就转换为UTF-8编码，用记事本编辑的时候，从文件读取的UTF-8字符被转换为Unicode字符到内存里，编辑完成后，保存的时候再把Unicode转换为UTF-8保存到文件。

charset=UTF-8

很多网页的源码上会有类似的信息，表示该网页正是用的UTF-8编码。

Python 3最重要的新特性大概要算是对文本和二进制数据作了更为清晰的区分。文本总是Unicode，由str类型表示，二进制数据则由bytes类型表示。Python 3不会以任意隐式的方式混用str和bytes，正是这使得两者的区分特别清晰。你不能拼接字符串和字节包，也无法在字节包里搜索字符串(反之亦然)，也不能将字符串传入参数为字节包的函数(反之亦然)。这是件好事。

不管怎样，字符串和字节包之间的界线是必然的，下面的图解非常重要，务请牢记于心：

str&bytes

字符串可以编码成字节包，而字节包可以解码成字符串。

由于Python的字符串类型是str，在内存中以Unicode表示，一个字符对应若干个字节。如果要在网络上传输，或者保存到磁盘上，就需要把str变为以字节为单位的bytes。

Python对bytes类型的数据用带b前缀的单引号或双引号表示：

x=b'ABC'

而如果想要写中文汉字这种，需要写\xYY这种16进制的值的形式才可以：

>>> s = b'\xe4\xb8\xad\xe6\x96\x87'

>>>

>>> type(s)

试着将bytes类型s解码看看是什么

>>> d = s.decode("utf-8")