字符编码杂记

1:UNICODE编码有自己的网站Unicode.org


2:UTF-16的大尾序和小尾序储存形式都在用。一般来说,

以Macintosh制作或储存的文字使用大尾序格式,

以Microsoft或Linux制作或储存的文字使用小尾序格式。


3:UTF-16就是多了4字节的代理项对的UCS-2(UCS-2严格支持2字节)

主要是历史原因, 微软之前用UCS-2标识的字符不够用,又在UCS-2的基础上自己瞎搞了个4字节的代理项对


4:UTF-32 ,UTF8映照关系  如果是le就从右向左填充x

UTF-32                                    UTF8
        0x00000000 - 0x0000007F          0xxxxxxx 
        0x00000080 - 0x000007FF          110xxxxx 10xxxxxx 
        0x00000800 - 0x0000FFFF          1110xxxx 10xxxxxx 10xxxxxx 
        0x00010000 - 0x001FFFFF          11110xxx 10xxxxxx 10xxxxxx 10xxxxxx 
        0x00200000 - 0x03FFFFFF          111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 
        0x04000000 - 0x7FFFFFFF          1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 


相关资料:

https://baike.baidu.com/item/UTF-16/9032026?fr=aladdin&fromid=8390363&fromtitle=UTF16

https://blog.csdn.net/dengyunze/article/details/160958

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值