搞清楚字符编码09-万国码[5]

最新推荐文章于 2023-01-01 12:57:31 发布

Sacredness

最新推荐文章于 2023-01-01 12:57:31 发布

阅读量541

点赞数 1

分类专栏：系列-搞清楚字符编码文章标签： utf-16 utf-32 万国码

版权声明：本文为博主原创文章，遵循 CC 4.0 BY 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Sacredness/article/details/96735397

版权

系列-搞清楚字符编码专栏收录该内容

10 篇文章 0 订阅

订阅专栏

这篇博客我们来介绍万国码实际存储编码中的utf-16与utf-32

utf-16是什么

utf-16是理论编码ucs4的一种实际存储编码
基本单元是2个字节
变长存储，存储BMP时长度是2个字节，存储的不是BMP时长度为4个字节.

utf-16存储ucs4中的BMP

此时uft-16存储ucs4的情况就跟ucs-2存储ucs2的情况一模一样.

utf-16存储大于BMP的ucs4编码

以存储ucs4编码00000000 000010000 11111111 11111111为例

第一步：去掉高位的0

10000 11111111 11111111

第二步：减

将去掉高位0的结果减去0x10000

10000 11111111 11111111
-
1 00000000 00000000
=
1111 11111111 11111111

第三步：填充

将相减的结果按"从低位到高位"的方向填充到110110xx xxxxxxxx 110111xx xxxxxxxx中，填不满的话用补0.

所以最终的编码就是：11011011 11111111 11011111 11111111

utf-32是什么

uft-32是理论编码方案ucs4是实际编码方案
uft-32有时也被叫作ucs-4
不变长存储，每个编码的长度都是4个字节

不常用

因为uft4只用到了0组17个平面，所以使用不变长存储的utf-32存储的话至少有一个字节是浪费的，非常的不划算.
所以这种存储方案不常使用.

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
搞清楚字符编码09-万国码[5]

这篇博客我们来介绍万国码实际存储编码中的utf-16与utf-32utf-16是什么utf-16是理论编码ucs4的一种实际存储编码基本单元是2个字节变长存储，存储BMP时长度是2个字节，存储的不是BMP时长度为4个字节.utf-16存储ucs4中的BMP此时uft-16存储ucs4的情况就跟ucs-2存储ucs2的情况一模一样.utf-16存储大于BMP的ucs...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。