Unicode和UTF8的关系

最新推荐文章于 2023-04-16 23:14:13 发布

是谁的小仙女啊

最新推荐文章于 2023-04-16 23:14:13 发布

阅读量229

点赞数

本文链接：https://blog.csdn.net/Swjdlll/article/details/101233862

版权

让我们先来简单认识一下Unicodehe和UTF8

Unicode字符集将所有字符按照使用上的频繁度划分为17个层面（Plane），每个层面上有216=65536个字符码空间。

在这里插入图片描述

UTF-8使用1~4字节为每个字符编码，UTF-8编码，如果只有一个字节则其最高二进制位为0；如果是多字节，其第一个字节从最高位开始，连续的二进制位值为1的个数决定了其编码的字节数，其余各字节均以10开头。

Unicode的产生原因和Unicode与UTF8之间的转换关系

因为生活中需要被计算机记录的语言、符号越来越多，原先的编码体系已经不能满足人们的需要，各类新的编码规则也应运而生。Unicode最大程度的涵盖了各类语言，为每一个字符、符号都设了一个码。其通常用两个字节表示一个字符，原有的英文编码从单字节变成双字节只需要把高字节全部填为0就可以。

ASCII早于Unicode产生所能表示的比Unicode少，所占用的字符也比Unicode少，因此当ASCII可以表示的字符使用UNICODE来表示时并不高效，而对ASCII来说高字节的0对他毫无用处。为了解决这个问题，就出现了一些中间格式的字符集，他们被称为通用转换格式，即UTF（Unicode Transformation Format）。常见的UTF格式有：UTF-7, UTF-7.5, UTF-8,UTF-16, 以及 UTF-32。

UTF-8是针对Unicode的一种可变长度字符编码。它可以用来表示Unicode标准中的任何字符，而且其编码中的第一个字节仍与ASCII相容，使得原来处理ASCII字符的软件无须或只进行少部份修改后，便可继续使用。

转化关系：

在这里插入图片描述
Unicode转换为UTF-8时，可以将Unicode二进制从低位往高位取出二进制数字，每次取6位，如上述的二进制就可以分别取出为如下示例所示的格式，前面按格式填补，不足8位用0填补。

示例
UNICODE uCA(1100 1010) 编码成UTF-8将需要2个字节：
uCA（Unicode）—— C3 8A（UTF8），过程如下：
uCA(1100 1010)处于0080 ~07FF之间，从上文中的转换表可知对其编码需要2bytes，即两个字节，其对应 UTF-8格式为： 110X XXXX10XX XXXX。从此格式中可以看到，对其编码还需要11位，而uCA(1100 1010)仅有8位，这时需要在其二进制数前补0凑成11位: 000 1100 1010, 依次填入110X XXXX 10XX XXXX的空位中，即得 1100 0011 1000 1010（C38A）。

是谁的小仙女啊

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Unicode和UTF8的关系

欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持，除了标准的Markdown编辑器功能，我们增加了如下几点新功能，帮助你用它写博客：全新的界面设计，将会带来全新的写作体...
复制链接

扫一扫