Unicode和UTF-8区别

最新推荐文章于 2023-08-17 13:47:09 发布

liboren920528

最新推荐文章于 2023-08-17 13:47:09 发布

阅读量726

点赞数

分类专栏：编程心得文章标签： utf-8 编码

编程心得专栏收录该内容

11 篇文章 0 订阅

订阅专栏

很多人，即使是有一些项目经验的人，都说过这句话。但是如果深入的理解什么是unicode之后就会知道，原来我们经常说的这句话“unicode字符是2个字节”这句话是有问题的。
要说清楚这个问题，首先就要说清楚unicode到底是什么。
unicode是一个标准，也可以说是世界上的语言字符和数字映射的一种标准。它没有限制字符的数量，但是可能这个标准规定的映射只是映射了一部分字符。每个字符映射一个code point（码点）。Unicode 目前规划的总空间是17个平面（平面0至16），0x0000 至 0x10FFFF。每个平面有 65536 个码点。
所以Unicode支持的字符上限是65536个
这句话也是有问题的，这65536个字符是我们最常用的基本字符，但是还有很多字符是在0x0000–0xFFFF之外的。在我们说unicode是几个字节这句话的时候，就已经暗示了我们现在讨论的是unicode在计算机内存里的存储方式了（只有在计算机系统里才有字节这种定义，如果脱离计算机的话unicode是不会与字节扯上关系的）。unicode存储在计算机内存里肯定是需要编码的，那么就有UTF-8,UTF-16,UTF-32等编码方案。为什么我们常说“unicode字符是2个字节”，是因为windows默认的unicode编码就是UTF-16。而unicode在这种编码下，大部分都是2个字节的，至少上面提到的前65536个基本常用字符都是2个字节的。所以就有了“unicode字符是2个字节”这句话。其实UTF-16是一种变长的编码方案，有些unicode字符的抽象码点（code
point）编码后是2个字节，有些是4个字节。所以“unicode字符是2个字节”这句话大多数时候是正确的，但是unicode字符的抽象码点（code
point）超过范围0x0000–0xFFFF后就不对了。
如果是为了跨平台兼容性，只需要知道，在 Windows 记事本的语境中：
所谓的「ANSI」指的是对应当前系统 locale 的遗留（legacy）编码。
所谓的「Unicode」指的是带有 BOM 的小端序 UTF-16。
所谓的「UTF-8」指的是带 BOM 的 UTF-8。

NICODE是万能编码，包含了所有符号的编码，它规定了所有符号在计算机底层的二进制的表示顺序。有关Unicode为什么会出现就不叙述了，Unicode是针对所有计算机的使用者定义一套统一的编码规范，这样计算机使用者就避免了编码转换的问题。Unicode定义了所有符号的二进制形式，也就是符号如何在计算机内部存储的，而且每个符号规定都必须使用两个字节来表示，也就是用16位二进制去代表一个符号，这样就导致了一个问题，英文编码的空间浪费，因为在ANSI中的符号都是一个字节来表示的，而使用了UNICODE编码就白白浪费了一个字节。也就代表着Unicode需要使用两倍的空间去存储相应的ANSI编码下的符号。虽然现在硬盘或者内存都很廉价，但是在网络传输中，这个问题就凸显出来了，你可以这样想想，本来1M的带宽在ANSI下可以代表1024*1024个字符，但是在Unicode下却只能代表1024*1024/2个字符。也就是1MB/s的带宽只能等价于512KB/s，这个很可怕啊。所以为了解决符号在网络中传输的浪费问题，就出现了UTF-8编码，Unicode transfer format -8 ，后面的8代表是以8位二进制为单位来传输符号的，但是这样又导致了一个问题，虽然UTF-8可以使用一个字节来表示ANSI下的符号，但是对于其它类似汉语的符号，得需要两个字节来表示，所以计算机不知道如何去截取一个符号，也就是一个符号对应的二进制的截取开始位置和截取结束位置。所以为了解决Unicode下的ANSI符号的空间浪费和网络传输下如何截取字符的问题，UTF规定：如果一个符号只占一个字节，那么这个8位字节的第一位就为0。如果为两个字节，那么规定第一个字节的前两位都为1，然后第一个字节的第三位为0，第二个字节的前两位为10，然后如果是三个字节的话，那么第一个字节的前三位为111，第四位为0，剩余的两个字节的前两位都为10。按照这样的算法去思考一个中文字符的UTF-8是怎么表示的：一个中文字符需要两个字节来表示，两个字节一共是16位，那么UTF-8下，两个字节是不够的，因为两个字节下，第一个字节已经占据了三位：110，然后剩余的一个字节占据了两位：10，现在就只剩下11位，与Unicode下的两个字节，16位去表示任意一个字符是相悖的。所以就使用三个字节去表示非ANSI字符：三个字节下，一共是24位，第一个字节头四位是：1110，后两个字节的前两位都是：10，那么24位-8位=16位，刚好两个字节去表示Unicode下的任意一个非ANSI字符。这也就是为什么UTF-8需要使用三个字节去表示一个非ANSI字符的原因了！

　　题外话：

　　然，中国的汉字多达10多万，常用的汉字3500左右[08年统计]，如果用3个字节来表示，一共只有2^16(65535)种可能，不足以表示10多万的汉字。所以中日韩的超大字符集是采用的4个字节来表示的，多达6万多个。但是平时使用超大字符集的概率0.01%都不到。所以我们一般认为日常的中文在UTF-8中占三个字节即可！

多个字节提供的位数超过了所需要的，多余的位以0补全到编码前面

liboren920528

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Unicode和UTF-8区别

NICODE是万能编码，包含了所有符号的编码，它规定了所有符号在计算机底层的二进制的表示顺序。有关Unicode为什么会出现就不叙述了，Unicode是针对所有计算机的使用者定义一套统一的编码规范，这样计算机使用者就避免了编码转换的问题。Unicode定义了所有符号的二进制形式，也就是符号如何在计算机内部存储的，而且每个符号规定都必须使用两个字节来表示，也就是用16位二进制去代表一个符号，这样就导致
复制链接

扫一扫