unicode/UCS与utf-8_ucs和utf-8-CSDN博客

本文链接：https://blog.csdn.net/LCracker/article/details/4086900

历史上, 有两个独立的, 创立单一字符集的尝试:

UCS: 一个是国际标准化组织(ISO)的 ISO 10646 项目,

unicode: 另一个是由(一开始大多是美国的)多语言软件制造商组成的协会组织的 Unicode 项目.

幸运的是, 1991年前后, 两个项目的参与者都认识到, 世界不需要两个不同的单一字符集. 它们合并双方的工作成果, 并为创立一个单一编码表而协同工作.两个项目仍都存在并独立地公布各自的标准, 但 Unicode 协会和 ISO/IEC JTC1/SC2 都同意保持 Unicode 和 ISO 10646 标准的码表兼容, 并紧密地共同调整任何未来的扩展.

简单的说：它们是字符集，是分配整数个字符的编码表。

而，utf-8:是存储Unicode数据的一种可选方法，决定了unicode数据的存储方式。

UCS/unicode是定长的为4字节（双字节），utf-8为变长的，不同范围内的unicode数据，utf-8有相应的字节数：

U-00000000 - U-0000007F: 0xxxxxxx
U-00000080 - U-000007FF: 110xxxxx 10xxxxxx
U-00000800 - U-0000FFFF: 1110xxxx 10xxxxxx 10xxxxxx
U-00010000 - U-001FFFFF: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
U-00200000 - U-03FFFFFF: 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
U-04000000 - U-7FFFFFFF: 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

-----------------------------------------------------------------------------------------------------------------

utf-8最高字节的前n个'1'表示该utf-8的字节数，后面在紧跟一个'0'.

xxx 的位置由字符编码数的二进制表示的位填入. 越靠右的 x 具有越少的特殊意义. 只用最短的那个足够表达一个字符编码数的多字节串. 注意在多字节串中, 第一个字节的开头"1"的数目就是整个串中字节的数目.

例如: Unicode 字符 U+00A9 = 1010 1001 (版权符号) 在 UTF-8 里的编码为:

11000010 10101001 = 0xC2 0xA9

而字符 U+2260 = 0010 0010 0110 0000 (不等于) 编码为:

11100010 10001001 10100000 = 0xE2 0x89 0xA0