常用编码的种类
ASCII
ASCII码使用7位2进制数表示一个字符,7位2进制数可以表示出2的7次方个字符,共128个字符,最高位的1没有用。取值范围: 0X00-0X7F
EBCDIC(Extended Binary Coded Decimal Interchange Code)
(iso-8859-1)有些情况也叫Latin-1
n 因为ISO-8859-1编码范围使用了单字节内的所有空间,在支持ISO-8859-1的系统中传输和存储其他任何编码的字节流都不会被抛弃。把其他任何编码的字节流当作ISO-8859-1编码看待都没有问题。
n 0X00-0X7F前面的和ASCII完全兼容
GB2312 是对 ASCII 的中文扩展
(非定长编码)
规定:一个小于127的字符的意义与原来相同,但两个大于127的字符连在一起时,就表示一个汉字,前面的一个字节(他称之为高字节)从0xA1用到 0xF7,后面一个字节(低字节)从0xA1到0xFE,这样我们就可以组合出大约7000多个简体汉字了。
GBK(GB18030 少数民族的字也加进去了)
由于中国字太多如繁体,于是干脆不再要求低字节一定是127号之后的码,只要第一个字节是大于127就固定表示这是一个汉字的开始,
UCS (Universal Multiple-Octet Coded Character Set),俗称 "UNICODE"
就是16位来统一表示所有的字符,对于ascii里的那些“半角”字符,UNICODE 包持其原编码不变,只是将其长度由原来的8位扩展为16位,而其他文化和语言的字符则全部重新统一编码。(编码