关于UTF8、UTF16、UTF32的一点总结

最新推荐文章于 2024-02-02 15:42:15 发布

pipi1375

最新推荐文章于 2024-02-02 15:42:15 发布

阅读量1.4k

点赞数 3

分类专栏：感悟文章标签： Unicode编码

本文链接：https://blog.csdn.net/pipi1375/article/details/84784392

版权

感悟专栏收录该内容

1 篇文章 0 订阅

订阅专栏

                    
                    UTF8、UTF16、UTF32都是unicode字符集的字符编码。
UTF意思是unicode转换格式（Unicode transform format），出现UTF8、UTF16、UTF32是出于要在内存中存储字符的目的而对unicode字符编号进行编码。
UTF8、UTF16、UTF32区别：（8、16、32可看做每种字符编码存储所需的最少的比特位数）
 
UTF8：存在单字节编码，兼容ASCII；当编码为一个字节，则设最高比特位为0；当编码超过一个字节，则需要几个字节，就在第一个字节从最高位开始令连续的几个比特位为1，之后的字节最高位为10。UTF8：存在单字节编码，兼容ASCII；当编码为一个字节，则设最高比特位为0；当编码超过一个字节，则需要几个字节，就在第一个字节从最高位开始令连续的几个比特位为1，之后的字节最高位为10。
UTF32：用固定长度的字节存储字符编码，不管Unicode字符编号需要几个字节，全部都用4个字节存储，直接存储Unicode编号。无需经过字符编号向字符编码的转换步骤，提高效率，用空间换时间。
UTF16：使用2或4个字节进行存储。对于Unicode编号范围在0~FFFF之间的字符，统一用两个字节存储，无需字符转换，直接存储Unicode编号。对于Unicode字符编号在10000-10FFFF之间的字符，UTF16用四个字节存储，简单说就是：将Unicode字符编号(3字节)分为两部分，高位部分（Unicode字符编号中占1.5个字节）用一个值介于 D800-DBFF （110110yy yyyyyyyy，y为0/1）之间的双字节存储，低位部分用一个值介于 DC00-DFFF （110111xx xxxxxxxx，x为0/1）的双字节存储。而介于D800-DFFF之间的编码在Unicode中是预留的，不安排字符，如果Unicode中有字符的编号是这之间的值，会引发冲突和歧义，很有可能一个不常见字符（存储为四个字节）最后被读成两个常见字符（存储为两个字节）。
 
感悟来源于https://blog.csdn.net/guxiaonuan/article/details/78678043

pipi1375

关注

3
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
关于UTF8、UTF16、UTF32的一点总结

UTF8、UTF16、UTF32都是unicode字符集的字符编码。UTF意思是unicode转换格式（Unicode transform format），出现UTF8、UTF16、UTF32是出于要在内存中存储字符的目的而对unicode字符编号进行编码。UTF8、UTF16、UTF32区别：（8、16、32可看做每种字符编码存储所需的最少的比特位数）UTF8：存在单字节编码，兼容A...
复制链接

扫一扫