1:UNICODE编码有自己的网站Unicode.org
2:UTF-16的大尾序和小尾序储存形式都在用。一般来说,
以Macintosh制作或储存的文字使用大尾序格式,
以Microsoft或Linux制作或储存的文字使用小尾序格式。
3:UTF-16就是多了4字节的代理项对的UCS-2(UCS-2严格支持2字节)
主要是历史原因, 微软之前用UCS-2标识的字符不够用,又在UCS-2的基础上自己瞎搞了个4字节的代理项对
4:UTF-32 ,UTF8映照关系 如果是le就从右向左填充x
UTF-32 UTF8
0x00000000 - 0x0000007F 0xxxxxxx
0x00000080 - 0x000007FF 110xxxxx 10xxxxxx
0x00000800 - 0x0000FFFF 1110xxxx 10xxxxxx 10xxxxxx
0x00010000 - 0x001FFFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
0x00200000 - 0x03FFFFFF 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
0x04000000 - 0x7FFFFFFF 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
相关资料:
https://baike.baidu.com/item/UTF-16/9032026?fr=aladdin&fromid=8390363&fromtitle=UTF16
https://blog.csdn.net/dengyunze/article/details/160958