Unicode 和 UTF-8的区别

Unicode 和 UTF-8

他们是两种不同的编码方式吗?不。

先搞清楚什么是编码方式,在计算机中,不管是程序还是数据,实际上都是一段二进制,看你如何看待它而已。

而编码规则,我的理解是,首先确认这是一段文本数据,不同的编码规则会把这段01二进制转换为不同的字符。这里的字符就是我们人能看到的数据,比如字母、数字、中文、符号等。

比如我创建了一套编码规则,当遇到一段二进制时,观察每个字节的内容,将他们按顺序分别映射到26个小写字母,其余情况认为是符号!
当遇到这串数据 0x00 0x01 0xff 0x02,按照我的编码规则,我认为这是文本ab!c,编码规则影响了我看待数据的方法,从而让我看到了不一样的数据。

回到Unicode和UTF-8,Unicode不是编码规则,是一套字符集,这又是什么鬼,字符集有点不一样,抽象程度更高,不只是计算机领域中的?字符集定义的是一个数字对应什么字符。比如第30693个数字定义为,第73个数字定义为I,看上去很简单,但在实际使用中,不同字符出现的频次是不一样的,比如在Unicode中,字母、数字出现的概率远小于各种特殊符号,最新Unicode包含了137,994个字符,涵盖150中现代、古代的语言,13.7万个字符,假如直接用最简单的编码规则(等长编码),表达一个这样的字符需要占用18位(2的17次方等于131,072),但不同字符出现频次不同,就很浪费。

大学时候学过哈夫曼编码,就是预先知道每个字符出现频率,制定出平均长度最短的编码规则。现实生活中我们不知道每个字符出现的准确频率,但也可以把常见的字母、数字放在较短的编码中,比如我们的中文编码规则GB2312应该就是把中文放在前面的。

而UTF-8就是其中一种实现,UTF-8的详细编码规则就自己wiki吧。

但我对UTF-8有个疑问,多字节时为什么第二个字节开始,每个字节都要用01开头,在第一个字节的时候就已经区分了(用0、10、110这样来区分),不会导致冲突,为什么之后的字节还需要加10呢?不是浪费了空间吗?
这里解答了我的疑惑。

https://softwareengineering.stackexchange.com/questions/262227/why-does-utf-8-waste-several-bits-in-its-encoding
https://zh.wikipedia.org/wiki/UTF-8
https://www.v2ex.com/t/517938
14# wsxyeah 的回答

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值