【字符编码系列之四】Unicode实现之UTF-8详解

最新推荐文章于 2024-08-05 11:00:22 发布

friendbkf

最新推荐文章于 2024-08-05 11:00:22 发布

阅读量1.6k

点赞数

分类专栏：字符编码文章标签： BOM utf-8 unicode

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/friendbkf/article/details/45504225

版权

在开始本篇文章之前，我默认大家已经区分好了Unicode编码(也就是代码点)和Unicode编码具体实现之间的区别。要不然，下面讲的你会不知所云的。

历史

我们知道，ISO 10646委员会定义了一个叫做Universal Character Set (UCS)的超级字符集，以囊括世界上所有的书写系统。正因为UCS现在是用4个字节编码，而实现它的则是UTF-16和UTF32之类的方案，正因这些实现方案（注意，非编码方案）是多字节的，所以导致它不兼容US-ASCII相关的系统。UTF-8也因此而诞生。UTF-8的使命之一就是对于ASCII表示的字符，本方案的编码要和ASCII完全一样。

历史上曾经的UTF-8用1~6个字节来编码字符，也就是说，与此对应的抽象代码点可以达到U+7FFFFFFF。但是人们发现，对于代码点来说，根本用不到4个字节编码，只用21位就可以完全包含世界上所有的书写系统了，即合法代码点为0x0000~0x10FFFF。所以随着Unicode规定合法的代码点范围是0x0000 0000 ~0x0010 FFFF,RFC 3629宣布，以前的UTF-8(RFC 2279)标准作废，新标准中UTF-8用1~4个字节来编码字符。

对于Unicode相关的编码，总共有五种：UTF-8, UCS-2, UTF-16, UCS-4 and UTF-32.要是有人非要加上UTF-7那也可以吧。
本系列后续文章会依次讲到上述所有实际编码方案。

UTF-8

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

friendbkf CSDN认证博客专家 CSDN认证企业博客

码龄16年

109: 原创

13万+: 周排名

169万+: 总排名

47万+: 访问

: 等级

4890: 积分

69: 粉丝

213: 获赞

85: 评论

486: 收藏

私信

关注

热门文章

分类专栏

最新评论

晶体三极管工作原理讲解方法探讨
2301_79171852: 请问一下，既然饱和了，但是集电结又是正向偏置，电子不会再继续去集电区，电流不会下降吗，为什么说ic不变了呢
VS Qt，去掉烦人的红线提示
日月光华597: 谢谢！！！困扰我一下午的问题解决了。祝佬的技术更上一层楼
安装及设置MASM32 SDK
oliveira-time: 那个my1st.asm的问题一include的路径不对二是kerne132.inc kernel32.lib不是英文字母那个l是1
【随机数生成算法系列】线性同余法和梅森旋转法
ggw007: lcg源代码中浮点数会出现 (double)0xFFFF1234/(-1UL)的情况，是个小bug？
败者树建立过程图示
LeePriestley: 大概明白了，不知道是否正确：给定的一组序列先按完全二叉树画出一棵满足叶子个数的空树，根据叶子结点序号依次填入记录。本题给定记录：10、9、20、6、12按顺序填入大概就是图中败者树的树型了。

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。