Unicode 和 UTF-8的区别

最新推荐文章于 2022-03-19 11:31:37 发布

wen_rc

最新推荐文章于 2022-03-19 11:31:37 发布

阅读量705

点赞数

分类专栏：读书笔记编码

本文链接：https://blog.csdn.net/ZhaoBuDaoFangXia/article/details/100716186

版权

读书笔记同时被 2 个专栏收录

33 篇文章 1 订阅

订阅专栏

编码

1 篇文章 0 订阅

订阅专栏

Unicode 和 UTF-8

他们是两种不同的编码方式吗？不。

先搞清楚什么是编码方式，在计算机中，不管是程序还是数据，实际上都是一段二进制，看你如何看待它而已。

而编码规则，我的理解是，首先确认这是一段文本数据，不同的编码规则会把这段01二进制转换为不同的字符。这里的字符就是我们人能看到的数据，比如字母、数字、中文、符号等。

比如我创建了一套编码规则，当遇到一段二进制时，观察每个字节的内容，将他们按顺序分别映射到26个小写字母，其余情况认为是符号!。
当遇到这串数据 0x00 0x01 0xff 0x02，按照我的编码规则，我认为这是文本ab!c，编码规则影响了我看待数据的方法，从而让我看到了不一样的数据。

回到Unicode和UTF-8，Unicode不是编码规则，是一套字符集，这又是什么鬼，字符集有点不一样，抽象程度更高，不只是计算机领域中的？字符集定义的是一个数字对应什么字符。比如第30693个数字定义为知，第73个数字定义为I，看上去很简单，但在实际使用中，不同字符出现的频次是不一样的，比如在Unicode中，字母、数字出现的概率远小于各种特殊符号，最新Unicode包含了137,994个字符，涵盖150中现代、古代的语言，13.7万个字符，假如直接用最简单的编码规则（等长编码），表达一个这样的字符需要占用18位（2的17次方等于131,072），但不同字符出现频次不同，就很浪费。

大学时候学过哈夫曼编码，就是预先知道每个字符出现频率，制定出平均长度最短的编码规则。现实生活中我们不知道每个字符出现的准确频率，但也可以把常见的字母、数字放在较短的编码中，比如我们的中文编码规则GB2312应该就是把中文放在前面的。

而UTF-8就是其中一种实现，UTF-8的详细编码规则就自己wiki吧。

但我对UTF-8有个疑问，多字节时为什么第二个字节开始，每个字节都要用01开头，在第一个字节的时候就已经区分了（用0、10、110这样来区分），不会导致冲突，为什么之后的字节还需要加10呢？不是浪费了空间吗？
这里解答了我的疑惑。

https://softwareengineering.stackexchange.com/questions/262227/why-does-utf-8-waste-several-bits-in-its-encoding
https://zh.wikipedia.org/wiki/UTF-8
https://www.v2ex.com/t/517938
14# wsxyeah 的回答

wen_rc

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Unicode 和 UTF-8的区别

Unicode 和 UTF-8他们是两种不同的编码方式吗？不。先搞清楚什么是编码方式，在计算机中，不管是程序还是数据，实际上都是一段二进制，看你如何看待它而已。而编码规则，我的理解是，首先确认这是一段文本数据，不同的编码规则会把这段01二进制转换为不同的字符。这里的字符就是我们人能看到的数据，比如字母、数字、中文、符号等。比如我创建了一套编码规则，当遇到一段二进制时，观察每个字节的内容，将...
复制链接

扫一扫

专栏目录