1 早期只有127以内的字符 20以内是控制字符。
2 后来各国有了自己的编码,但一般是两个字节表示一个字符(中国)。
3 UNICODE 就是解决各国之间冲突的问题,定义了统一的标准。 可以65025个字符。
这样英文也是一个字符两个字节,这样的好处是全世界统一。
4 UTF 系列其实和UNICODE可以一一对应,目的是为了网络传输,具体还要分析。
5 ansi,其实就是 应为ansi和GBK的组合。
6 乱码,其实是因为把编码弄错了。 另一个编码的某个二进制流可能不存在这个字符,
而计算机显示文字可能是按照一定的映射关系做的,所以会有乱码。
6 UTF-8有点类似于Haffman编码,它将Unicode编码为:
0x00-0x7F的字符,用单个字节来表示;
0x80-0x7FF的字符用两个字节表示;
0x8000-0xFFFF的字符用3字节表示;
汉字的unicode范围是:0x4E00~0x9FA5
其实这个范围还包括了中,日,韩的字符。
看来UTF-8 相当是给UNICODE压缩一下。
UTF除了能节约空间,还能提高纠错率,GBK不容易纠错。