字符集

被各种乱码整得焦头烂额,查了些资料,理了理,挺有意思的。

首先是ASCII码,美国佬搞出来时用32至127表示可打印字符,0至31为控制字符,如0x0A (LF换行),0x0D(CR回车)。然而随着计算机普及,非英语地区开始想使用自己的语言,于是8位ASCII码的最高位也被用上了,而亚洲地区出现使用两个字节表示一个字符的编码,如天朝的GB-2312,台湾的Big5,Japs的JIS等等,造成了很混乱的局面,ANSI于是制定了个标准:对小于128的编码和ASCII值一样,而如果使用双字节编码则要求每个字节最高位为1。也就是说ANSI码并不是一种编码,它只是提供了一种规范,在大陆ANSI码,也就是GB-2312发展到今天的GBK,我们中文windows系统用记事本存储时默认的是采用ANSI,存储的值也就是GBK值,如“汉”的值为:0xBA 0xBA。                                                                                                                                                                                                                                                            

然而并没有解决不同字符集的通用问题,Unicode就诞生了,在Unicode普及之前,MS采用了Code Pages的机制来实现不同ANSI码到Unicode的映射。两个字节表示范围内的为UCS-2,四个字节的为UCS-4,UCS-4的最高字节的最高位为0,然后根据第一个字节分成128个group,根据第二个字节把每个组分成256个plane...(BMP:把0组0平面前面的两个字节去掉就得到UCS-2字符)应当注意的是,Unicode并不提供具体的编码方法,也就是说字符在内存中存储的并不一定是Unicode值。Unicode的编码方法有UTF-8 UTF-16 UTF-32...(UTF:UCS Transformation Format),具体编码如下:

UTF-8:
UCS-2编码(16进制) UTF-8 字节流(二进制) 模板
0000 - 007F 0xxxxxxx 
0080 - 07FF 110xxxxx 10xxxxxx 
0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx 
例如“汉”字的Unicode编码是6C49。6C49在0800-FFFF之间,所以肯定要用3字节模板了:1110xxxx 10xxxxxx 10xxxxxx。将6C49写成二进制是:0110 110001 001001, 用这个比特流依次代替模板中的x,得到:11100110 10110001 10001001,即E6 B1 89

这里有段小插曲,就是记事本新建txt文件,输入“联通”保存退出,再打开出现乱码的问题,就是由于记事本在默认情况下用ANSI码也就是GBK存储,“联通”的GBK码为C1AA
CDAB,二进为11000001 10101010 11001101 10101011正好符合UTF-8的第二个模板,于是在没有制定编码的情况下,记事本就以UTF-8解读,按照UTF-8模板2的逆运算,得到006a 0368对应的Unicode为j。很明显只要新建的txt格式为0xAA,0xBB,满足0≤AA≤DF 80≤BB≤BF时,就会出现上述情况。

UTF-16:
UTF-16以16位为单位对UCS进行编码,对小于0x10000的UCS码,编码值等于16位无符号整数,这也许也是人们为什么说Unicode编码和UTF-16编码一样的原因吧,而对于高于0x10000的值稍微麻烦些,不过现在也用不着。
UTF-32:
直接用32位无符号整数表示

到这里我基本了解了,记事本中ANSI,Unicode,UTF-8的出处,然而记事本中还有一个Unicode big endian是哪里来的呢?这就要说,UTF-16与UTF-8的区别了,UTF-8是按字节编码,不存在码序的问题,而UTF-16以16位为单位就存在一个高端存储(big endian)和低端存储的问题(little endian)的问题,Unicode规范推荐先传输个字节顺序标记,UCS中有个叫做"ZERO WIDTH NO-BREAK SPACE"的字符,编码为FEFF,还有一个UCS中不存在的字符FFFE。接收端如果收到FEFF就按高端存储解码,收到FFFE就按低端存储解码。这就是记事本中Unicode和Unicode big endian的区别。下面为“汉”按unicode和Unicode big endian存储的结果:
Unicode:   00000000h:FF FE 49 6C                                     ; 蘒l 
Unicode big endian :00000000h: FE FF 6C 49                                     ; ?lI
而UTF-8实际上也会在文件开头存储"ZERO WIDTH NO-BREAK SPACE"来标识文件格式,
UTF-8:           00000000h:EF BB BF E6 B1 89                           ; 锘挎眽

综上所述,ASCII派生了GB-2312,Big5等等的DBCS,ANSI为此制定了标准,然后Unicode提出了统一的字符集,UTF-8,UTF-16为Unicode的编码方式,其中UTF-16又由于自身的特点和Unicode的值非常像,于是就直接用Unicode指代UTF-16,而用Unicode big endian指代UTF-16大端存储方式。


参考:
http://www.joelonsoftware.com/articles/Unicode.html
http://www.cppblog.com/qiujian5628/archive/2008/01/24/41773.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值