python bytes & str

知识点

python3最重要的新特性大概要算对文本和二进制数据做了更为清晰的区分。python3不会以任何隐式的方式混用str和bytes,正是这是的这两者的区别特别明显,你不能拼接字符串和字节包,也无法在字节包里搜索字符串(反之亦然),也不能将字符串传入参数为字节包的函数(反之亦然);

  • 文本总是unicode字符集,有str类型表示,二进制数据则有bytes类型表示。

  • 我们不关心字符串在内部是如何被表示的,也不关心它用几个字节来表示每个字符。只有在将字符串编码成字节(如用于通信信道的传输)或将字节解码成字符串时,才考虑这些问题。
    在这里插入图片描述


代码

创建bytes类型数据
>>> a = bytes([1,2,3,4])

>>> a

b'\x01\x02\x03\x04'

>>> type(a)

<class 'bytes'>

>>>

>>> a = bytes('hello','ascii')

>>>

>>> a

b'hello'

>>> type(a)

<class 'bytes'>
编码
  • 可以将抽象字符以二进制数据的形式表示,有很多编码方法,如utf-8、gbk等,可以使用encode()函数对字符串进行编码,转换成二进制字节数据,也可用decode()函数将字节解码成字符串;用decode()函数解码,可不要用指定编码格式
>>> a = 'hello world'

>>> type(a)

<class 'str'>

>>> a

'hello world'
  • 按utf-8的方式编码,转成bytes:以及解码成字符串
>>> b = a.encode(encoding='utf-8')

>>> type(b)

<class 'bytes'>

>>>

>>> b

b'hello world'


>>> c = b.decode(encoding='utf-8')

>>> type(c)

<class 'str'>

>>> c

'hello world'
  • 按gbk的方式编码,转成bytes:以及解码成字符串
>>> x = a.encode(encoding='gbk')

>>> type(x)

<class 'bytes'>

>>> x

b'hello world'


>>> y = x.decode()

>>> type(y)

<class 'str'>

>>> y

'hello world'

总结出两点

  • 只有转成bytes存成数据的时候才是用encode,变成字符串是decode(别搞反啦
  • bytes默认的编码是’ascii’,所以bytes.decode()会默认使用ascii解码器

补充

  • 查看字节的编码方式——使用chardet包(chardet就是char detect ~有木有很好记呢 ~ 我们调用的也是chardet里面的detect( bytes a ) 这个函数嘻嘻)
import chardet
b=bytes([1,2,])
chardet.detect(b)
得到:{'encoding': 'ascii', 'confidence': 1.0, 'language': ''}

最后得到的结果也印证了之前的结论:bytes默认的编码是'ascii',所以bytes.decode()会默认使用ascii解码器

  • python bytes的使用方式
    to be continued…
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值