字节bytes，编码和解码

wwanxinghao

已于 2022-11-09 09:47:21 修改

阅读量3k

点赞数 3

分类专栏： python 文章标签： python

于 2022-02-11 21:08:47 首次发布

本文链接：https://blog.csdn.net/wanggaoxingH/article/details/122888455

版权

python 专栏收录该内容

117 篇文章 4 订阅

订阅专栏

00000000 ：8位代表一个字节bytes

gbk编码（国标扩）：一个中文占用2个字节

utf-8（万国码）：一个中文占用3个字节

gbk和utf-8不能直接进行转换，否则会出现乱码（因为他们的字节占用不一样）

# bytes,编码和解码
# asci码
s='周杰伦'
s1 = s.encode('gbk')
print(s1)
# 输出：b'\xd6\xdc\xbd\xdc\xc2\xd7'
# gbk编码，一个中文占2个字节，所以这里3个中文，占用6个字节

s2 = s.encode('utf-8')
print(s2)
# 输出：b'\xe5\x91\xa8\xe6\x9d\xb0\xe4\xbc\xa6'
# utf-8编码：一个中文占用3个字节，所以这里3个中文占用了9个字节

#------------gbk和utf-8如何进行转换---------------
#比如gbk的：b'\xd6\xdc\xbd\xdc\xc2\xd7'转化为utf-8b'\xe5\x91\xa8\xe6\x9d\xb0\xe4\xbc\xa6'
b =b'\xd6\xdc\xbd\xdc\xc2\xd7'
ss = b.decode('gbk')
print(ss)
# 输出：周杰伦
ss1 = ss.encode('utf-8')
print(ss1)
# 输出：b'\xe5\x91\xa8\xe6\x9d\xb0\xe4\xbc\xa6'

decode和encode的互相转化

1. str.encode('编码')

2. bytes.decode('编码')

扫盲：

因为万国码（unicode），每个字都占用了4个字节，但不是每个字节都需要用到，且在网络传输时，字节太多太耗流量，和空间，所以需要对字节进行压缩，就是：endcode('utf-8'),可以把不需要的字节去掉encode之后，字符串就变为了“字节类型bytes”，然后接收到请求后的数据如果要恢复为万国码（unicode）,直接解码：decode('utf-8')