字符串的编码分为两大类:
(1)通用的Unicode编码
(2)将Unicode转化成的某种类型的编码如UTF-8、GBK等。
由于计算机只能处理文字,因此在处理文本时必须要先转换为数字才行。计算机采用8bit作为一个字节(byte),使用二进制,所以一个字节可以表示256中不同的状态,每个状态对应一个符号,从00000000到11111111.
各个国家制定了自己的编码来表示本国的文字,其中ACSII编码是一个字节,对应英文字符和二进制数字之间的关系,共规定了128个字符的编码。中国使用GB2312作为简体中文常见的编码方式,两个字节表示一个汉字,理论上最多可以表示256×256=65536个符号。
同时也出现了问题,即同一个字符可能会在不同国家或地区的编码体系中代表不一样的文字。
因此创造了Unicode码,其被称为统一码、万国码,通常是两个字节。为了节省空间,开发了一些中间格式的字符集,被称为通用转换格式Unicode Transformation Format(UTF),常见的有UTF-8和UTF-16。UTF-8最大的特点就是长度可变,可使用1-4个字节表示一个符号,英文字母通常被编为1个字节,与SACII码相同;汉字通常被编为3个字节。
在python3中字符串的编码使用str和bytes两种类型,其中字符串默认编码是str类型,使用Unicode编码。
(1)str字符串:使用Unicode编码;
(2)bytes字符串,使用将Unicode转化成的某种类型的编码,如UTF-8等。
两者之间的转化就用到了encode和decode。其中encode的作用是将Unicode编码转换成其他编码的字符串,而decode是将其他编码的字符串转化为Unicode编码。Unicode不可以再被解码。