UNICODE,统一码,可包含世界上所有国家的字符,每一个字符用两个字节表示!
UTF-16, 基本上就是UNICODE双字节编码方式的实现,再加上一个未来扩展需求的编码机制
UTF-8,UNICODE的不等幅编码机制,英文保持不变,其他用两个或三个字节表示,如中文用三个字节表示
UCS-2,大体上可考虑成UTF-16,
UCS-4, 用4个字节表示,在UTF-16编码前面加上两个空白的bytes,
UTF-8 编码原理参看附图:
UTF-16 的扩展机制(代理对):
保留编码范围:D800 ----DBFF(高部)
DC00 ---DFFF(底部)
两部分组合用来表示一个字符共可表示1024*1024个字符
私有区:
共三块私有区:
E000 ----------------F8FF
代理对私有区:
F0000 --------------FFFFD
100000 ------------10FFFD