unicode 编码杂记

UNICODE,统一码,可包含世界上所有国家的字符,每一个字符用两个字节表示!

UTF-16, 基本上就是UNICODE双字节编码方式的实现,再加上一个未来扩展需求的编码机制

UTF-8,UNICODE的不等幅编码机制,英文保持不变,其他用两个或三个字节表示,如中文用三个字节表示

UCS-2,大体上可考虑成UTF-16,

UCS-4, 用4个字节表示,在UTF-16编码前面加上两个空白的bytes,

UTF-8 编码原理参看附图:

 

UTF-16 的扩展机制(代理对):

保留编码范围:D800 ----DBFF(高部)

                    DC00 ---DFFF(底部)

两部分组合用来表示一个字符共可表示1024*1024个字符

 

私有区:

共三块私有区:

E000 ----------------F8FF

代理对私有区:

F0000 --------------FFFFD

100000 ------------10FFFD

没有更多推荐了,返回首页

私密
私密原因:
请选择设置私密原因
  • 广告
  • 抄袭
  • 版权
  • 政治
  • 色情
  • 无意义
  • 其他
其他原因:
120
出错啦
系统繁忙,请稍后再试