python3 str unicode_python3中bytes(ASCII)和str(Unicode)的对比

Python3.3+对Unicode对象的存储明显要比Python2.7中少。如果你主要处理许多字符串,并且它吃掉很多RAM,一定要考虑转移到Python3.3+中去,这样就绝对免费地节省了RAM。

Python3.3+中Unicode对象的UTF-8编码为每个ASCII字符使用一个字节,而为更少见的字符使用了更多的字节。Python2.7为每一个Unicode字符使用了相同数量的字节数,而不管字符的出现率。

从Python3.3开始,具有了灵活的Unicode表示,它通过观察字符串中的字符范围,并且尽可能使用更少的字节数来表示更低阶的字符。

以上参考文献1

以下参考文献2

Python3中只有一种能保存文本信息的数据类型,就是str(string,字符串),它是不可变的序列,保存的是Unicode编码。Python3.0开始,所有没有前缀的字符串都是Unicode。因此,所有用单引号,双引号或成组的3个引号包围且没有前缀的值都表示str数据类型。

Python2中,Unicode需要u前缀(比如:u'some string')。从Python3.3开始,为保证向后兼容,仍然可以使用这个前缀,但它在Python3中没有任何语法上的意义。

Python2中用str表示的的字符串,在Python3中用bytes对象来处理。

以下是我自己的理解:

在Python3中,bytes(不可变的)和bytearray(可变的)与str不同,只能用(0, 256)范围内的整数,作为参数。即bytes标志着字符串的编码方式是扩展的ASCII码。显示时前缀是b。

对于bytes和bytearray,在转换为另一种序列类型时(比如:list和tuple)可以显示出其本来面目:

而相对而言的用引号引用的字符串(比如:'some string')则是用Unicode的编码方式。

参考书:

1、Python高性能编程/(美)戈雷利克(Micha Gorelick),(美)欧日沃尔德(Ian Ozsvald)著;胡世杰,徐旭彬译.--北京:人民邮电出版社,2017.7 (280-281)

2、Python高级编程:第2版/(波)贾沃斯基(Michal Jaworski),(法)莱德(Tarek Ziadé)著;张亮,阿信译.--北京:人民邮电出版社,2017.10 (27-28)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值