编码简述

最新推荐文章于 2022-06-02 20:03:35 发布

额外人讨厌

最新推荐文章于 2022-06-02 20:03:35 发布

阅读量236

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/baidu_29637877/article/details/102653485

版权

本文简述了计算机字符编码的历史，从最初的ASCII码到解决多语言问题的Unicode，再到节省空间的UTF-8编码。Unicode统一了各种语言的编码，避免乱码，而UTF-8则通过变长编码优化了空间利用，尤其适用于包含大量英文的文本。Python 3中的字符串默认使用Unicode编码。

摘要由CSDN通过智能技术生成

ASCII码
计算机只能认识0和1这两个数。因此，在处理文本的过程中，就需要将对应的字符转换为计算机可以识别的数字。这样就需要给每一个字符对应一个字符，然后再转化成二进制的数。
计算机最早是由美国人发明出来的，所以最一开始的编码只有数字、英文字母（大写和小写）以及一些标点符号等127个字符编码，这就是最早的ASCII码。例如：大写字母’C’对应的编码是67，逗号’,'对应的编码是44。每个字符占用1个字节byte(8bit)。后来，世界各个国家也都有了计算机，相应的文本语言也需要用计算机来处理。显然，127个字符编码对于各国来说根本不够用，各个国家因此建立了属于自己国家的编码方式。这样带来的问题，就是在多语言混合的文本中，就会出现不符合编码的乱码现象。（小时候看过电子书的应该会有这样的体验）

Unicode
为了解决多语言混合文本在单独编码下的乱码现象，Unicode应运而生。
Unicode将所有语言都统一到了同一编码体系下，这样就不会出现乱码的情况。目前，几乎所有的OS和大部分编程语言都支持Unicode编码。
与ASCII码的编码方式不同，由于Unicode编码了更多的语言，所以相应的编码长度就有所加长。大部分的Unicode编码是2个字节byte(16bit)，对于一些比较少用的，如汉语中的生僻字会用4-6个字节进行编码。

UTF-8
乱码的问题解决了，新的问题又出现了。
如果在一个全英文的文本中，ASCII码完全可以表示，但是用Unicode编码所占用空间是