字节编码与转码

最新推荐文章于 2019-10-02 10:09:22 发布

IT之禅

最新推荐文章于 2019-10-02 10:09:22 发布

阅读量778

点赞数

本文链接：https://blog.csdn.net/weixin_41930966/article/details/84721610

版权

编码集

ascii码：一个字节，只有英文字符和一些符号
Unicode：通常两个字节，偏僻的可能4字节，可以覆盖世界上所有语言文字
utf-8：可变长编码格式，英文同ascii码一致，中文为3个字节，生僻的4-6字节
gbk：中国的编码方式，各国都有自己的编码方式，且不兼容
utf-8的编码规则有二条：
1）对于单字节的符号，字节的第一位设为0，后面7位为这个符号的unicode码。因此对于英语字母，UTF-8编码和ASCII码是相同的。
2）对于n字节的符号（n>1），第一个字节的前n位都设为1，第n+1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的unicode码。

编码和解码

Unicode兼容各国的编码方式，可以编码为所有的其他格式，而其他格式都可以解码为unicode编码。
在这里插入图片描述
根据上图描述，如果我们想将gbk编码的数据转为utf-8需要先解码为unicode，再编码为utf-8。

# python3默认使用utf-8编码
import sys
print(sys.getdefaultencoding())  # 获取默认编码
s = "你好"
s_en = s.encode()
print(s_en,type(s_en))

utf-8
b’\xe4\xbd\xa0\xe5\xa5\xbd’ <class ‘bytes’>

由以上代码可以看到，在python3中，默认的编码是utf-8，但是存储在内存中数据是unicode编码的，所以以上变量s没有decode方法。为什么会这样呢？
答案是：现在计算机为了解决乱码问题，在本地都是用unicode编码显示，在存储和传输时，则用的utf-8编码，下面盗用廖雪峰大佬的一张图来描述，大家可能会更清晰：
在这里插入图片描述
同时，在python3中，调用encode方法后，不只是将编码集转换了，同时也将数据类型改为了bytes类型。

IT之禅

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
字节编码与转码

编码集ascii码：一个字节，只有英文字符和一些符号Unicode：通常两个字节，偏僻的可能4字节，可以覆盖世界上所有语言文字utf-8：可变长编码格式，英文同ascii码一致，中文为3个字节，生僻的4-6字节gbk：中国的编码方式，各国都有自己的编码方式，且不兼容utf-8的编码规则有二条：1）对于单字节的符号，字节的第一位设为0，后面7位为这个符号的unicode码。因此对于英语...
复制链接

扫一扫