Python3中的编码问题（Unicode, UTF-8, GBK, ASCII）

最新推荐文章于 2024-05-11 02:04:21 发布

Awful_leo

最新推荐文章于 2024-05-11 02:04:21 发布

阅读量6.3k

点赞数 2

分类专栏： python 文章标签： python 编码

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/leavemetomorrow/article/details/90445761

版权

本文章受UNICODE,GBK,UTF-8区别的极大启发，仅为巩固自己的记忆。

1. ASCII是最早的字符集，总共包含127个字符，因为是美国人发明的，127个够他们用了。

2. GBK是ASCII的扩展集，ASCII使用一个字节，即8个二进制位，来表征英文字母和一些符号，一个字节可以最多表示2的8次方即256个字符。前127个被称为ASCII字符集，后续在ASCII的基础上进行扩展，将剩余的127个用来表征汉字，但汉字太多，所以不得不在必要时使用2个字符来表示更多的汉字，被称为GB2312字符集，后来仍然不够，又进一步扩展成GBK字符集。所以在此字符集中，英文占一个字节，汉字则占两个字节。

3. UNICODE也是字符集，包含了世界上所有民族的所有文字，因其一律使用两个字符来表示字符。其同时还有备用方案，即使用4个字节来表示字符，总共可容纳上亿的字符。

4. 由于互联网的出现，UNICODE字符集的传输出现了问题，像英文字符本来需要一个字节就可以保存，如果强行用两个甚至三个四个字节来表示，传输的内容将成倍的增加，这是无法接受的，一定要解决。因此也就带来了UTF-8。

5. UTF-8的意思即以每次传输8bits的形式来进行信息传递。如果一个字节能传输完，就传输一个字节，一个字节不够的，再用更多的字节来表示，下图为UNICODE与UTF-8的对应关系。

最低0.47元/天解锁文章

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
Python3中的编码问题（Unicode, UTF-8, GBK, ASCII）

本文章受UNICODE,GBK,UTF-8区别的极大启发，仅为巩固自己的记忆。1. ASCII是最早的字符集，总共包含127个字符，因为是美国人发明的，127个够他们用了。2. GBK是ASCII的扩展集，ASCII使用一个字节，即8个二进制位，来表征英文字母和一些符号，一个字节可以最多表示2的8次方即256个字符。前127个被称为ASCII字符集，后续在ASCII的基础上进行扩展，...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。