关于ANSI编码小结

1、


ANSI编码不是一个具体的字符集,而是对一些多字节字符集类型的字符集(的集合)的一个总体的称呼,总称。

(Windows)ANSI编码中的每一个代码页值就是对一个具体的多字节字符集类型的字符集的别名。例如,代码页 936 就是Windows系统对简体中文GBK这个字符集的别名。

如果ANSI编码是一个具体的字符集,由于汉字和韩文字符都是它能表示的字符,那么里面写有韩文字符的以(Windows)ASNI 朝鲜语代码页949编码保存的文件再向他写入中文保存文件后再打开发现中文部分显示为乱码,而Unicode字符集是一个具体的字符集,汉字和韩文字符都是它能表示的字符,以Unicode字符集保存的文件里则能同时正确显示汉字和韩文字符。

或者里面写有韩文字符的以(Windows)ASNI 朝鲜语代码页949编码保存的文件改为用(Windows)ASNI 中文代码页936编码保存后再打开该文件应该还是显示正常才对,而事实是会显示乱码。

所以说,ANSI编码不是一个具体的字符集

如果说ANSI编码是一个具体的字符集,各个代码页是旗下的一个个子字符集,那么这个说法又对吗?


在MBCS下,字符被编码为单字节或双字节。在双字节字符中,第一个字节(即前导字节)表示它和下一个字节将被解释为一个字符。第一个字节来自留作前导字节的代码范围。哪个范围的字节可以用作前导字节取决于所使用的代码页。例如,日文代码页 932 使用 0x81 到 0x9F范围内的字节作为前导字节,而朝鲜语代码页 949 则使用其他范围的字节。

http://blog.csdn.net/slj0609/article/details/2913146


936 —简体中文(GBK

编码方式

字符有一字节和双字节编码,007F范围内是第一个字节,和ASCII保持一致,此范围内严格上说有96个文字和32个控制符号。

之后的双字节中,前一字节是双字节的第一位。总体上说第一字节(即前导字节)的范围是81FE(也就是不含80FF),第二字节的一部分领域在407E,其他领域在80FE

具体来说,定义的是下列字节:

GBK的编码范围
范围 第1字节 第2字节 编码数 字数
水准 GBK/1 A1A9 A1FE 846 717
水准 GBK/2 B0F7 A1FE 6,768 6,763
水准 GBK/3 81A0 40FE (7F除外) 6,080 6,080
水准 GBK/4 AAFE 40A0 (7F除外) 8,160 8,160
水准 GBK/5 A8A9 40A0 (7F除外) 192 166
用户定义 AAAF A1FE 564  
用户定义 F8FE A1FE 65
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值