首先 简单说一下历史,ascii码最开始是美国人搞出来的,用来干什么呢?我们知道,计算机只知道0和1,如果我们要计算机识别除了01之外的字符,例如 ‘a’,我们要先告诉计算机‘1100001’就是’a’。跟摩斯密码一样,敲几下三长两短就是代表sos(开玩笑)。所谓的字符编码,就是跟计算机打交 道,跟计算机约定一连串的0101到底代表了什么字符。
ascii编码是鼻祖了,不过由于ascii只有8bits,而且实际上用到的是7位,所以能表示的只有128个字符(00000000~01111111)。这128个字符包括了可打印的普通字符,也包括了不可打印的命令字符。看下表。
这128个字符,对于美国人来说,应该是足够了。但对于一些使用非英文字符的国家地区,例如拉丁文,发文,俄文,中文,这就绝对不够。
所以后来就有人搞了扩展的ascii,也有人搞了新的字符编码,在原来的8位基础上扩展到16位,32位。我们常见的ISOxxxx,GB2312,GBK,BIG 5,unicode….都是后来发展起来的。
虽然这 些字符编码有些之间是不兼容,例如就中文而言,gb2312是不兼容unicode的,就是说,同一个汉字,底层约定的二进制是不一样的。网页上的乱码就 是出于此。但是这些后来发展的字符编码都向下兼容了ascii。这就是为什么utf-8(unicode