字符编码:
计算机只能处理数字,如果要处理文本文件就必须先把文本转化成数字才能处理。最早的计算机在设计的时候采用8个比特(bit)作为一个字节(byte)。所以一个字节能表示的最大整数就是255 ((2^8) - 1 )。
ASCII编码:
最早的计算机字符编码为ASCII(美国信息互换标准代码),只有127个字母被编码到计算机里,也就是大小写英文字母、数字和一些符号,用一个字节(8个位)就能表示所有的字符。比如大写字母A的编码是65,小写字母z的编码是122。
GB2312编码:
但是在中国由于汉字数目众多,用一个字节根本表示不了,ASCII就行不通了。因此就有了GB2312(中国国家标准简体中文字符集)。GB2312使用两个字节来对字符进行编码,其中前面的一个字节从0xA1用到0xF7,后面一个字节从0xA1到0xFE。GB2312能表示几千个汉字,并且兼容ASSCII码。
GBK:
但后来发现,GB2312还是不够用,于是进行了扩展,产生GBK(汉字内码扩展规范)。GBK同GB2312一样用两个字节表示一个字符,但区别在于放宽了对于低字节的要求,因此也就能表示更多的汉字。
GB13080:
后来为了容纳少数民族以及其他其他国家的文字,又出现了DB13080。DB13080兼容GBK与GB2312。与GBK、GB2312不同的是,