Unicode note
- ASCII码
- ASCII码一共规定了128个字符的编码,这128个符号,只占用了一个字节的后面7个位,最前面的1位统一规定为0。
2.非ASCII码
- 其他的语言用128个字符是不够的,所以就需要多个字节来表示符号,但是不同的国家有不同的字母,所以就算是多字节,每个字节可能在不同的国家就代表着不同的符号,比如汉字就多达10万多个,简体中文常见的编码方式是GB2312,使用两个字节来表示一个汉字,理论上能表示65536个字符。
- Unicode
-
世界上存在着许多的编码方式,Unicode是一个很大的集合,能将世界上所有的符号收纳其中,那么乱码的问题就可以得以解决,Unicode是一个很大的集合,现在的规模可以容纳100多万个字符,每个符号的编码都是不一样的。
-
Unicode只是一个符号集,只规定了符号的二进制代码,并没有规定这个二进制代码应该怎么储存,也就是这个符号的存储有可能是一个字节,也有可能是两个字节,三个字节,四个字节等,所以现在就很容易出现问题: 1.如何能区别Unicode 和 ASCII码? 2.我们知道英文字母用一个字节表示就够了,如果Unicode统一规定每个符号用两个或者三个字节来存储,就会造成每个英文字符前必然有两到三个字节全是0,这对于存储来说会造成极大的浪费。
-
为了解决上面的问,出现的结果:1.出现了Unicode的多种存储方式,也就是说有许多种不