ASCII码
计算机只能认识0和1这两个数。因此,在处理文本的过程中,就需要将对应的字符转换为计算机可以识别的数字。这样就需要给每一个字符对应一个字符,然后再转化成二进制的数。
计算机最早是由美国人发明出来的,所以最一开始的编码只有数字、英文字母(大写和小写)以及一些标点符号等127个字符编码,这就是最早的ASCII码。例如:大写字母’C’对应的编码是67,逗号’,'对应的编码是44。每个字符占用1个字节byte(8bit)。后来,世界各个国家也都有了计算机,相应的文本语言也需要用计算机来处理。显然,127个字符编码对于各国来说根本不够用,各个国家因此建立了属于自己国家的编码方式。这样带来的问题,就是在多语言混合的文本中,就会出现不符合编码的乱码现象。(小时候看过电子书的应该会有这样的体验)
Unicode
为了解决多语言混合文本在单独编码下的乱码现象,Unicode应运而生。
Unicode将所有语言都统一到了同一编码体系下,这样就不会出现乱码的情况。目前,几乎所有的OS和大部分编程语言都支持Unicode编码。
与ASCII码的编码方式不同,由于Unicode编码了更多的语言,所以相应的编码长度就有所加长。大部分的Unicode编码是2个字节byte(16bit),对于一些比较少用的,如汉语中的生僻字会用4-6个字节进行编码。
UTF-8
乱码的问题解决了,新的问题又出现了。
如果在一个全英文的文本中,ASCII码完全可以表示,但是用Unicode编码所占用空间是