转自http://blog.csdn.net/zzm628/article/details/45217937
首先来说一下,为什么需要编码:
第一,我们知道在计算机中存储信息的最小单位是1个字节(byte),也就是8个bit,所以能表示的字符范围也就是0-255个。
第二,我们要表示的符号太多太多,远远超过256个,无法用1个字节来完全表示。所以就需要一种新的数据类型char,而从char到byte必须编码,反之为解码。
其实,编码解码就是完成的翻译过程(“翻译”很容易理解吧),各种编码方式就是一部部字典。
1、ASCII码
ASCII码,总共只有128个。0-31又被用于表示控制字符如换行、回车、删除等,剩下的才是一些打印字符,数量太少了。(表示英文和数字够了,有木有)
2、ISO-8859-1
该编码是在ASCII编码的基础上扩展出来的,但它仍然是单字节编码,总共只能表示256个字符
3、GB2312
GB2312的全称是《信息技术 中文编码字符集》,它是双字节编码,编码范围是A1-F7,其中A1-A9是符号区,总共包含682个符号;B0-F7是汉字区,包含6763个汉字。
4、GBK
GBK的全称是《汉字内码扩展规范》,它的出现是为了扩展GB2312,它的编码范围是8140-FEFE(去掉XX7F),总共有23940个码位,能表示21003个汉字,它的编码是和GB2312兼容的
5、UTF-16
UTF-16的出现是ISO想要创建一个全新的超语言字典,世界上所有的语言都可以通过这个字典来相互翻译,可想而知,这个字典是多么的复杂、庞大。UTF-16用两个字节来表示Unicode的转化格式(两个字节就是16个bit,所以要UTF-16),采用的是定长的表示方法,即任何字符都可以用两个字节表示。这样表示字符就是变得的非常方便。但是,也有一个缺陷,就是很大一部分的字符用一个字节就可以表示了,UTF-16却用两个字节,有些浪费存储空间。所以有另一个编码方式就出现了,也就是UTF-8
6、UTF-8
UTF-8采用了一种变长技术,每个编码区域有不同的字码长度,不同类型的字符可以由1-6个字节组成。
UTF-8的编码规则如下:
1) 如果是1个字节,最高位为0,则表示这是1个ASCII字符。可见,所有ASCII编码已经是UTF-8了
2) 如果是1个字节,以11开头,则连续的1的个数暗示这个字符的字节数,例如:110xxxxx代表它是双字节UTF-8字符的首字节
3) 如果是1个字节,以10开始,表示它不是首字节,则需要向前查找才能得到当前字符的首字节。
结合所述,建议统一采用UTF-8的编码方式比较好。