python bytes & str

最新推荐文章于 2024-04-20 19:39:13 发布

荷西·H

最新推荐文章于 2024-04-20 19:39:13 发布

阅读量162

点赞数

本文链接：https://blog.csdn.net/Hesy_H/article/details/87966954

版权

python 专栏收录该内容

25 篇文章 0 订阅

订阅专栏

知识点

python3最重要的新特性大概要算对文本和二进制数据做了更为清晰的区分。python3不会以任何隐式的方式混用str和bytes，正是这是的这两者的区别特别明显，你不能拼接字符串和字节包，也无法在字节包里搜索字符串（反之亦然），也不能将字符串传入参数为字节包的函数（反之亦然）；

文本总是unicode字符集，有str类型表示，二进制数据则有bytes类型表示。
我们不关心字符串在内部是如何被表示的，也不关心它用几个字节来表示每个字符。只有在将字符串编码成字节（如用于通信信道的传输）或将字节解码成字符串时，才考虑这些问题。

代码

创建bytes类型数据

>>> a = bytes([1,2,3,4])

>>> a

b'\x01\x02\x03\x04'

>>> type(a)

<class 'bytes'>

>>>

>>> a = bytes('hello','ascii')

>>>

>>> a

b'hello'

>>> type(a)

<class 'bytes'>

编码

可以将抽象字符以二进制数据的形式表示，有很多编码方法，如utf-8、gbk等，可以使用encode()函数对字符串进行编码，转换成二进制字节数据，也可用decode()函数将字节解码成字符串；用decode()函数解码，可不要用指定编码格式

>>> a = 'hello world'

>>> type(a)

<class 'str'>

>>> a

'hello world'

按utf-8的方式编码，转成bytes：以及解码成字符串

>>> b = a.encode(encoding='utf-8')

>>> type(b)

<class 'bytes'>

>>>

>>> b

b'hello world'


>>> c = b.decode(encoding='utf-8')

>>> type(c)

<class 'str'>

>>> c

'hello world'

按gbk的方式编码，转成bytes：以及解码成字符串

>>> x = a.encode(encoding='gbk')

>>> type(x)

<class 'bytes'>

>>> x

b'hello world'


>>> y = x.decode()

>>> type(y)

<class 'str'>

>>> y

'hello world'

总结出两点

只有转成bytes存成数据的时候才是用encode，变成字符串是decode（别搞反啦
bytes默认的编码是’ascii’，所以bytes.decode()会默认使用ascii解码器

补充

查看字节的编码方式——使用chardet包(chardet就是char detect ~有木有很好记呢 ~ 我们调用的也是chardet里面的detect( bytes a ) 这个函数嘻嘻)

import chardet
b=bytes([1,2,])
chardet.detect(b)
得到：{'encoding': 'ascii', 'confidence': 1.0, 'language': ''}

最后得到的结果也印证了之前的结论：bytes默认的编码是'ascii'，所以bytes.decode()会默认使用ascii解码器

python bytes的使用方式
to be continued…

荷西·H

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录