Python 字符串编码与转换

最新推荐文章于 2024-03-26 12:53:59 发布

ppxin

最新推荐文章于 2024-03-26 12:53:59 发布

阅读量2.3k

点赞数

分类专栏： Python笔记文章标签：字符集 str bytes

本文链接：https://blog.csdn.net/ppxin/article/details/94432159

版权

Python笔记专栏收录该内容

4 篇文章 0 订阅

订阅专栏

一、Python字符串

二、字符串编码转换

一、Python字符串

（1）str类型

str字符串类型，是一种在python程序中存在的Unicode字符串，它对应Unicode字符集集（兼容ASCII表），但并不涉及采用什么样的编码方式进行存储和传输。Unicode 的学名是 "Universal Multiple-Octet Coded Character Set"，简称为UCS。UCS 可以看作是 "Unicode Character Set" 的缩写。现有的Unicode表有两个版本：UCS-2和UCS-4。其中， UCS-2采用2个字节进行编码，UCS-4采用4个字节进行编码。然而，受制于 2 字节数量的限制，UCS-2 只能表示最多 65536 个字符，而UCS-4能最多可定义 100 万个以上唯一字符，完全可以涵盖一切语言所用的符号。而UTF8、UTF16和UTF32，是对存储和传输的一些优化的编码方案，在存储和传输方面它们肯定比UCS要优秀的多，这也是我们为什么不直接使用UCS编码的原因。

（2）bytes类型

bytes类型，主要用于二进制数据，包括编码的文本（如utf8编码的字符串等）。它的操作操作函数和str类型的字符串基本相同，尽在encode和decode等方法上不同。

（3）bytearray类型

bytearray类型，它是bytes类型的array变体，支持array方式的操作，类似array的一种可变量。

提示：文件的工作模式有两种，一种是文本模式，一种是二进制模式。在文本模式下，获取的内容是str类型字符串，而传输实现了编码的转换；在二进制模式下，我们处理的是原生字节串，和数据传输没有半毛钱关系。

二、字符串编码转换

python的字符编码转换函数很简单，只有encode和decode。其中，encode是str类型字符串的方法，而decode是bytes类型字符串的方法。

下面，看一下两者的庐山真面目。

UTF-8是Unicode的一种编码规则，是变长的。可以把一个Unicode字符编码为1到4个字节。下面是Unicode和UTF-8的转换关系。左边是16进制的Unicode，右边是2进制的UTF-8。

U+ 0000 ~ U+ 007F: 0XXXXXXX
U+ 0080 ~ U+ 07FF: 110XXXXX 10XXXXXX
U+ 0800 ~ U+ FFFF: 1110XXXX 10XXXXXX 10XXXXXX
U+10000 ~ U+1FFFF: 11110XXX 10XXXXXX 10XXXXXX 10XXXXXX

首先Python3里面的字符都是用Unicode表示的，比如我们可以查看“学”字的Unicode值如下：

In [1]: a = '学'

In [2]: ord(a)
Out[2]: 23398

In [4]: hex(ord(a))
Out[4]: '0x5b66'

也就是“学”字Python3里面用十进制表示为23398，如果转换为16进制是0x5b66。但是如果要变成bytes类型，首先需要指定转换类型，当然默认是的UTF-8，但是我们也可以选择为其他编码类型。比如：

In [7]: bytes(a, 'utf-8')
Out[7]: b'\xe5\xad\xa6'

In [8]: bytes(a, 'gb2312')
Out[8]: b'\xd1\xa7'

对a变量分别进行utf-8和gb2312编码后，得到的bytes的内容是完全不一样的，也和之前的Unicode内容不一样。所以我们把str变成bytes时是用适当的编码格式进行转换，相反，如果把bytes类型的数据转换为str，需要使用对应的编码格式转换为Unicode格式的字符。

参考文章：

（1）Python 中的 bytes 和 str https://blog.csdn.net/amorhuang/article/details/82502773

ppxin

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
Python 字符串编码与转换

目录一、Python字符串二、字符串编码转换一、Python字符串（1）str类型str字符串类型，是一种在python程序中存在的Unicode字符串，它对应Unicode字符集集（兼容ASCII表），但并不涉及采用什么样的编码方式进行存储和传输。Unicode 的学名是 "Universal Multiple-Octet Coded Character Set"，简称为UC...
复制链接

扫一扫

专栏目录