python3 str unicode_python3中bytes（ASCII）和str（Unicode）的对比

最新推荐文章于 2022-06-02 11:03:00 发布

weixin_39759060

最新推荐文章于 2022-06-02 11:03:00 发布

阅读量98

点赞数

文章标签： python3 str unicode

Python3.3+对Unicode对象的存储明显要比Python2.7中少。如果你主要处理许多字符串，并且它吃掉很多RAM，一定要考虑转移到Python3.3+中去，这样就绝对免费地节省了RAM。

Python3.3+中Unicode对象的UTF-8编码为每个ASCII字符使用一个字节，而为更少见的字符使用了更多的字节。Python2.7为每一个Unicode字符使用了相同数量的字节数，而不管字符的出现率。

从Python3.3开始，具有了灵活的Unicode表示，它通过观察字符串中的字符范围，并且尽可能使用更少的字节数来表示更低阶的字符。

以上参考文献1

以下参考文献2

Python3中只有一种能保存文本信息的数据类型，就是str(string，字符串)，它是不可变的序列，保存的是Unicode编码。Python3.0开始，所有没有前缀的字符串都是Unicode。因此，所有用单引号，双引号或成组的3个引号包围且没有前缀的值都表示str数据类型。

Python2中，Unicode需要u前缀(比如：u'some string')。从Python3.3开始，为保证向后兼容，仍然可以使用这个前缀，但它在Python3中没有任何语法上的意义。

Python2中用str表示的的字符串，在Python3中用bytes对象来处理。

以下是我自己的理解:

在Python3中，bytes(不可变的)和bytearray(可变的)与str不同，只能用(0, 256)范围内的整数，作为参数。即bytes标志着字符串的编码方式是扩展的ASCII码。显示时前缀是b。

对于bytes和bytearray，在转换为另一种序列类型时(比如：list和tuple)可以显示出其本来面目:

而相对而言的用引号引用的字符串(比如：'some string')则是用Unicode的编码方式。

参考书：

1、Python高性能编程/(美)戈雷利克(Micha Gorelick)，(美)欧日沃尔德(Ian Ozsvald)著；胡世杰，徐旭彬译.--北京：人民邮电出版社，2017.7 (280-281)

2、Python高级编程:第2版/(波)贾沃斯基(Michal Jaworski)，(法)莱德(Tarek Ziadé)著；张亮，阿信译.--北京：人民邮电出版社，2017.10 (27-28)

weixin_39759060

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。