对于bit、ASCII码、Unicode码、UTF-8、str、bytes的理解

最新推荐文章于 2023-02-19 22:10:38 发布

future_X

最新推荐文章于 2023-02-19 22:10:38 发布

阅读量972

点赞数 1

文章标签： python unicode

本文链接：https://blog.csdn.net/future_X/article/details/115115718

版权

在计算机历史的早期，美国为代表的英语系国家主导了整个计算机行业，26个英文字母组成了多样的英语单词、语句、文章。因此，最早的字符编码规范是ASCII码，一种8位即1个字节的编码规范，它可以涵盖整个英语系的编码需要。

以ASCII编码为例，它规定1个字节8个比特位代表1个字符的编码，也就是“00000000”这么宽，一个一个字节的解读。

后来，计算机得到普及，中文、日文、韩文等等国家的文字需要在计算机内表示，ASCII的255位远远不够，于是标准组织制定出了叫做Unicode的万国码，它规定任何一个字符（不管哪国的）至少以2个字节表示，可以更多。其中，英文字母就是用2个字节，而汉字是3个字节。

这个编码虽然很好，满足了所有人的要求，但是它不兼容ASCII，同时还占用较多的空间和内存。因为，在计算机世界更多的字符是英文字母，明明可以1个字节就能够表示，非要用2个。

于是UTF-8编码应运而生，它规定英文字母系列用1个字节表示，汉字用3个字节表示等等。因此，它兼容ASCII，可以解码早期的文档。UTF-8很快就得到了广泛的应用。（现在大部分都是utf-8）

在编码的发展历程中，我国还创造了自己的编码方式，例如GBK，GB2312，BIG5。他们只局限于在国内使用，不被国外认可。在GBK编码中，中文汉字占2个字节。

bit , 计算机存储的最小单元，叫比特。
ASCII码是早期西方世界对于英文字符的一次编码集合，Unicode码可以是做是ASCII码的进化版本。
而像编程语言中提到的UTF-8、GB2312 、GBK 等，都是Unicode码的一种编码格式，保证了Unicode码可以被文本解读，展示为相对应的数据。
UTF-8里对于二进制数该表示为什么数据的规则：
- 对于单字节的符号，字节的第一位设为0，后面7位为这个符号的unicode码。因此对于英语字母，UTF-8编码和ASCII码是相同的。
- 对于n字节的符号（n>1），第一个字节的前n位都设为1，第n+1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的unicode码。

关注