unicode 编码杂记

UNICODE,统一码,可包含世界上所有国家的字符,每一个字符用两个字节表示!

UTF-16, 基本上就是UNICODE双字节编码方式的实现,再加上一个未来扩展需求的编码机制

UTF-8,UNICODE的不等幅编码机制,英文保持不变,其他用两个或三个字节表示,如中文用三个字节表示

UCS-2,大体上可考虑成UTF-16,

UCS-4, 用4个字节表示,在UTF-16编码前面加上两个空白的bytes,

UTF-8 编码原理参看附图:

 

UTF-16 的扩展机制(代理对):

保留编码范围:D800 ----DBFF(高部)

                    DC00 ---DFFF(底部)

两部分组合用来表示一个字符共可表示1024*1024个字符

 

私有区:

共三块私有区:

E000 ----------------F8FF

代理对私有区:

F0000 --------------FFFFD

100000 ------------10FFFD

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值