『Others』Unicode和UTF-8的区别

最新推荐文章于 2022-10-18 23:30:30 发布

爱喝可乐的炸鸡

最新推荐文章于 2022-10-18 23:30:30 发布

阅读量753

点赞数 12

分类专栏：『Others』文章标签： Unicode UTF-8

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sss_0916/article/details/89919125

版权

『Others』专栏收录该内容

20 篇文章 0 订阅

订阅专栏

我们知道，世界上存在着多种编码方式，所以同一个二进制数字在不同的编码中被解释成不同的符号。因此，如果我们想要打开一个文本文件，我们必须知道它的编码方式，否则使用不正确的编码方式打开，就会出现乱码。

Unicode

由于上述问题，所以人们就在想，能不能用一种编码，表示世界上所有的符号，每个符号都给与一个独一无二的编码，这样的话，乱码问题就会消失。于是Unicode就诞生了。
Unicode（Universal Character Set，UCS，通用字符集）。Unicode是一个符号集，它只规定了符号的二进制代码，却没有规定这个二进制代码如何来存储。
比如：汉字“蒙”的Unicode是十六进制数8499，转换成二进制数足足有16位（1000 0100 1001 1001），也就是说这个符号的表示至少需要两个字节。表示其他更大的符号，可能需要3个字节或者4个字节，甚至更多。
这里就有两个问题：

如何才能区分Unicode和ASCII？计算机如何知道三个字节是表示一个符号，而不是分别表示三个符号呢？
我们知道，英文字母只用一个字节表示就够了，如果Unicode统一规定，每个符号用三个或四个字节表示，那么每个英文字母前都必然有2到3个字节为0，这对于存储来说是极大的浪费，文本文件的大小会因此大出两三倍，这是无法接受的。

UTF-8

UTF-8（8-bit Unicode Transformation Format）是一种Unicode的实现方式，Unicode的实现方式还有UTF-16和UTF-32。再说一遍，UTF-8是Unicode的实现方式之一。
UTF-8是一种针对Unicode的可变长度字符编码，他可以使用1~4个字节来表示一个字符，根据不同的符号而变化字节长度。
UTF-8的编码规则有两条：

对于单字节的符号，字节的第一位设为0，后面7位为这个符号的Unicode码。因此对于英文字母，UTF-8编码和ASCII码是相同的。
对于n字节的符号（n > 1），第一个字节的前n位都设为1，第n+1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的Unicode码。
我们来看一个例子：

爱喝可乐的炸鸡

关注

12
点赞
踩
39

收藏

觉得还不错? 一键收藏
0
评论
『Others』Unicode和UTF-8的区别

Unicode。UTF-8。UTF-8编码规则。
复制链接

扫一扫

专栏目录

爱喝可乐的炸鸡 CSDN认证博客专家 CSDN认证企业博客

码龄6年

205: 原创

5万+: 周排名

51万+: 总排名

14万+: 访问

: 等级

4474: 积分

126: 粉丝

462: 获赞

62: 评论

443: 收藏

私信

关注

热门文章

分类专栏

最新评论

『踩坑记录』为什么10000000表示的是-128
linux码蚁小白: 补码不是没有+0和-0之分吗,而计算机里存储编码不是补码吗,为啥说不一样了?
『踩坑记录』为什么10000000表示的是-128
做而论道_CS: 由补码换算到十进制数，也极其简单。你只需记住：【补码首位的权，是负数】。一般的八位二进制数，各个位的权是：　　128、64、32、16、8、4、2、1；如果是八位的补码，各个位的权则是：　－128、64、32、16、8、4、2、1。　例如，有一个补码：1110 0000，它代表的十进制是：－128 + 64 + 32 = －32。如果，另一个补码：0110 0000，它代表的十进制是：0 + 64 + 32 = ＋96。你看看，仅仅使用【进制转换】，不就完事了吗？哪里还需要 “原码 ... ” 这些垃圾！
『踩坑记录』为什么10000000表示的是-128
做而论道_CS: 用二进制减法求补码，对我们来说，是很轻松的吧？老外算术能力差，算个简单的数，恨不得掰出脚趾头！实在没有办法，才编造出来 “原码反码取反加一”。我们的计算机老师，文化水平太洼，看不透补码的本质。这些老师，小学的算术都弄不利索，只会跟风老外！这些计算机专家，含水量，普遍是太高了。计算机老师所谆谆教导的：原码 ...，掩盖了补码的真相。反而让学生无法理解 “负数变正数、减法变加法” 的道理。他们讲这些垃圾，只是让计算机专业，显得更高深、更玄妙。但是，谎言，终归会有戳破的一天。。。 “原码反码取反加一符号位不变模同余补码定义式”，这些，都是毫无用处的。计算机专业的老师，喋喋不休的，蒙骗学生好多年。也不知道，他们用这些垃圾，抓了多少倒霉的学生！
『踩坑记录』为什么10000000表示的是-128
做而论道_CS: 实际上，任意负数（－X）的补码，都是：0 － X。你用二进制简单算一下，立刻就能得到结果。（－128 的补码，也就是这样求出来的。）同理，任意正数（＋X）的补码，也都是：0 ＋ X。这就不用算了，0 ＋ X，就是 X。即，正数的补码，就是 X 本身。二进制数的计算，并不难。而且，通过计算，你才能理解【减法变成加法】的原理。用 “原码取反加一” 求补码，你就什么也看不懂的！用 “原码取反加一” 求补码，你就会认为－128 有特殊性。
『踩坑记录』为什么10000000表示的是-128
做而论道_CS: 在 8 位的原码和反码中，　零，有重复编码，还缺少一个数值－128。因此，它们都是残疾的乱码，计算机根本就无法使用。表示整数，计算机唯一使用的，只有：补码。计算机为什么要使用补码呢？使用补码的意义是：【把减法，转换成加法运算】。统一了加减法，计算机只须配置一个加法器，即可走遍天下。那么，2－2 = 0，计算机是怎么算的呢？用 8 位 2 进制数，计算如下：　　0000 0010 + xxxx xxxx = 0000 0000。其中的 xxxx xxxx 就是【－2 的 8 位补码】。移项： xxxx xxxx = 0000 0000－0000 0010，算出： xxxx xxxx = (借位 1) 1111 1110。借位，不属于 8 位数，不用理它。那么： xxxx xxxx = 1111 1110。这就是【－2 的 8 位补码】！负数的补码，就是这么求出来的。简不简单？　意不意外？求补码时，原码反码 ...，都是无用的。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。