Python3.3+对Unicode对象的存储明显要比Python2.7中少。如果你主要处理许多字符串,并且它吃掉很多RAM,一定要考虑转移到Python3.3+中去,这样就绝对免费地节省了RAM。
Python3.3+中Unicode对象的UTF-8编码为每个ASCII字符使用一个字节,而为更少见的字符使用了更多的字节。Python2.7为每一个Unicode字符使用了相同数量的字节数,而不管字符的出现率。
从Python3.3开始,具有了灵活的Unicode表示,它通过观察字符串中的字符范围,并且尽可能使用更少的字节数来表示更低阶的字符。
以上参考文献1
以下参考文献2
Python3中只有一种能保存文本信息的数据类型,就是str(string,字符串),它是不可变的序列,保存的是Unicode编码。Python3.0开始,所有没有前缀的字符串都是Unicode。因此,所有用单引号,双引号或成组的3个引号包围且没有前缀的值都表示str数据类型。
Python2中,Unicode需要u前缀(比如:u'some string')。从Python3.3开始,为保证向后兼容,仍然可以使用这个前缀,但它在Python3中没有任何语法上的意义。
Python2中用str表示的的字符串,在Python3中用bytes对象来处理。
以下是我自己的理解:
在Python3中,bytes(不可变的)和bytearray(可变的)与str不同,只能用(0, 256)范围内的整数,作为参数。即bytes标志着字符串的编码方式是扩展的ASCII码。显示时前缀是b。
对于bytes和bytearray,在转换为另一种序列类型时(比如:list和tuple)可以显示出其本来面目:
而相对而言的用引号引用的字符串(比如:'some string')则是用Unicode的编码方式。
参考书:
1、Python高性能编程/(美)戈雷利克(Micha Gorelick),(美)欧日沃尔德(Ian Ozsvald)著;胡世杰,徐旭彬译.--北京:人民邮电出版社,2017.7 (280-281)
2、Python高级编程:第2版/(波)贾沃斯基(Michal Jaworski),(法)莱德(Tarek Ziadé)著;张亮,阿信译.--北京:人民邮电出版社,2017.10 (27-28)