字符编码小结

 

1    早期只有127以内的字符  20以内是控制字符。
2    后来各国有了自己的编码,但一般是两个字节表示一个字符(中国)。

3    UNICODE 就是解决各国之间冲突的问题,定义了统一的标准。 可以65025个字符。
     这样英文也是一个字符两个字节,这样的好处是全世界统一。

4   UTF 系列其实和UNICODE可以一一对应,目的是为了网络传输,具体还要分析。


5   ansi,其实就是 应为ansi和GBK的组合。

6   乱码,其实是因为把编码弄错了。 另一个编码的某个二进制流可能不存在这个字符,
    而计算机显示文字可能是按照一定的映射关系做的,所以会有乱码。


6   UTF-8有点类似于Haffman编码,它将Unicode编码为:
    0x00-0x7F的字符,用单个字节来表示;
    0x80-0x7FF的字符用两个字节表示;
    0x8000-0xFFFF的字符用3字节表示;
    汉字的unicode范围是:0x4E00~0x9FA5
    其实这个范围还包括了中,日,韩的字符。
    看来UTF-8 相当是给UNICODE压缩一下。
 


    UTF除了能节约空间,还能提高纠错率,GBK不容易纠错。


 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值