搞清楚字符编码08-万国码[4](utf-8)

最新推荐文章于 2022-11-03 21:28:29 发布

Sacredness

最新推荐文章于 2022-11-03 21:28:29 发布

阅读量1.6k

点赞数

分类专栏：系列-搞清楚字符编码文章标签： uft-8 ucs4 ucs2 计算机编码

版权声明：本文为博主原创文章，遵循 CC 4.0 BY 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Sacredness/article/details/93379989

版权

系列-搞清楚字符编码专栏收录该内容

10 篇文章 0 订阅

订阅专栏

这篇博客介绍万国码中的实际存储编码utf-8

utf-8是什么

utf-8是一种实际存储编码
它即可以存储理论编码ucs2又可以存储理论编码ucs4
变长存储，各个字符编码的长度可能不相同.
它是为了解决ucs-2中的浪费问题而产生的.

utf-8如何存储ucs2

方案

范围	方案
$\leq 7$	`0xxxxxxx`
$\leq 11$	`110xxxxx 10xxxxxx`
$\leq 16$	`1110xxxx 10xxxxxx 10xxxxxx`
$\leq 21$	`11110xxx 10xxxxxx 10xxxxxx 10xxxxxx`
$\leq 26$	`111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx`
$\leq 31$	`1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx`

编码步骤

第一步：查找原先的ucs-2编码
- 例如经字的ucs-2编码为01111110 11001111
第二步：以字节为单位去年高位的0
- 去掉高位的0后，经字的编码变成了1111110 11001111，还剩下15位
第三步：把剩下的位数看作x，根据剩下的位数寻找对应的方案
- 这里我们应该找到方案1110xxxx 10xxxxxx 10xxxxxx
第四步：按照"从右向左的顺序"将剩下的编码填充到方案的x上
- 这里，要将1111110 11001111填充到1110xxxx 10xxxxxx 10xxxxxx上
- 填充的结果应该是：1110x111 10111011 10001111
第五步：填充后如果还有剩下的x用0填充，得到utf-8编码
- 1110x111 10111011 10001111中的x用0填充后得到11100111 10111011 10001111
- 所以汉字经的utf-8编码就是11100111 10111011 10001111

utf-8如何存储ucs4

跟存储ucs2的情况一样，也是变长存储.
只不过在编码时ucs2只会用到前3种方案，ucs46种方案全会用到.

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。