本文章受UNICODE,GBK,UTF-8区别的极大启发,仅为巩固自己的记忆。
1. ASCII是最早的字符集,总共包含127个字符,因为是美国人发明的,127个够他们用了。
2. GBK是ASCII的扩展集,ASCII使用一个字节,即8个二进制位,来表征英文字母和一些符号,一个字节可以最多表示2的8次方即256个字符。前127个被称为ASCII字符集,后续在ASCII的基础上进行扩展,将剩余的127个用来表征汉字,但汉字太多,所以不得不在必要时使用2个字符来表示更多的汉字,被称为GB2312字符集,后来仍然不够,又进一步扩展成GBK字符集。所以在此字符集中,英文占一个字节,汉字则占两个字节。
3. UNICODE也是字符集,包含了世界上所有民族的所有文字,因其一律使用两个字符来表示字符。其同时还有备用方案,即使用4个字节来表示字符,总共可容纳上亿的字符。
4. 由于互联网的出现,UNICODE字符集的传输出现了问题,像英文字符本来需要一个字节就可以保存,如果强行用两个甚至三个四个字节来表示,传输的内容将成倍的增加,这是无法接受的,一定要解决。因此也就带来了UTF-8。
5. UTF-8的意思即以每次传输8bits的形式来进行信息传递。如果一个字节能传输完,就传输一个字节,一个字节不够的,再用更多的字节来表示,下图为UNICODE与UTF-8的对应关系。