Unicode字符集和UTF编码


前言

本文详细介绍 u n i c o d e unicode unicode 字符集和其相关的三种编码方式: u t f 8 utf8 utf8 u t f 16 utf16 utf16 u t f 32 utf32 utf32,并给出一个编码和解码的参考程序。

一、字符集和编码方式

字符集是一些字符的集合,字符集中每一个字符有一个唯一的字符编码表示该字符,编码方式规定了计算机存储该字符集中字符编码的规则,也是计算机解读一串二进制序列的规则。
1: A S C I I ASCII ASCII 码用 7 b i t   ( 0 x 00 − 0 x 7 f ) 7bit \ (0x00-0x7f) 7bit (0x000x7f) 存储英文字符,字符集为 128 128 128 个英文字符,即 A S C I I ASCII ASCII 字符集。 A S C I I ASCII ASCII 码的编码方式类似直接映射,字母 A A A 对应的字符编码是 65 65 65,在 A S C I I ASCII ASCII 编码下为 0 x 41 0x41 0x41。字符编码的值也是 A S C I I ASCII ASCII 码值。
2: A S C I I ASCII ASCII 字符集的缺陷非常直观:只包含英文字符。
3: U n i c o d e Unicode Unicode 是国际标准字符集,它将世界各种语言的每个字符定义一个唯一的字符编码,以满足跨语言、跨平台的文本信息转换。 2023 2023 2023 9 9 9 月发表的 15.1 15.1 15.1 版本中定义了 149813 149813 149813 个字符。规定 U n i c o d e Unicode Unicode 字符编码存储方式的规则主要有三种: u t f 8 utf8 utf8 u t f 16 utf16 utf16 u t f 32 utf32 utf32

二、unicode字符集

U n i c o d e Unicode Unicode 为每一个字符分配一个唯一的字符编码,称为在编码空间中的一个码点 ( c o d e   p o i n t ) (code \ point) (code point) U n i c o d e Unicode Unicode 标准给定编码空间为 U+0000 - U+10FFFF。码点以 U + U+ U+ 开头,最少用 4 4 4 个十六进制数表示,若有前导 0 0 0 不可省略。例如: U + 00 F 7 U+00F7 U+00F7 表示除法符号 ÷ ÷ ÷

编码空间中有效码点个数为: 2 20 + ( 2 16 − 2 11 ) = 1112064 2^{20} + (2^{16} − 2^{11}) = 1112064 220+(216211)=1112064。其减掉的 2 11 2^{11} 211 主要原因在于 u t f 16 utf16 utf16 编码的编码方式限制,在范围 U+D800 - U+DFFF U n i c o d e Unicode Unicode 并未编码字符。

下表随机列了几个 U n i c o d e Unicode Unicode 码点和其表示的字符之间的对应关系:

码点Value
U+2118 P \huge\mathscr{P} P
U+A015
U+FE18

另外,按照码点范围区分了不同平面,以下为具体平面名称:

码点范围平面
U+0000-U+FFFF基本多文种平面
U+10000-U+1FFFF多文种补充平面
U+20000-U+2FFFF表意文字补充平面
U+30000-U+DFFFF表意文字第三平面
U+E0000-U+EFFFF特别用途补充平面
U+F0000-U+FFFFF保留作为私人使用区域A区
U+100000-U+10FFFF保留作为私人使用区域B区

基本多文种平面包含了绝大部分常用字符,例如: U + 0980 − U + 09 F F U+0980-U+09FF U+0980U+09FF 为孟加拉文, U + 25 A 0 − U + 25 F F U+25A0-U+25FF U+25A0U+25FF 为几何图形, U + 1800 − U + 18 A F U+1800-U+18AF U+1800U+18AF 为蒙古文,等等。具体见:Unicode符号表

utf32编码

u t f 32 utf32 utf32 编码方式非常简单直观:用 32 b i t 32bit 32bit 直接表示一个 U n i c o d e Unicode Unicode 码点,因此其也被称为定长编码。

1 1 1 U n i c o d e Unicode Unicode 标准规定的编码空间: U+0000 - U+10FFFF。最长需要 3 3 3 个字节表示, 4 4 4 字节完全够用。

2 2 2:以码点 U + 0041 U+0041 U+0041 字符 A A A 为例,其 u t f 32 utf32 utf32 编码结果为: 0 x 00000041 0x00000041 0x00000041。直观来讲, u t f 32 utf32 utf32 编码方式相当于把码点零扩展到 32 b i t 32bit 32bit。类似的, A S C I I ASCII ASCII 码也是一样的,零扩展到 7 b i t 7bit 7bit 表示。

缺点:
1 1 1 u t f 32 utf32 utf32 编码最大的缺点在于占用空间过大。假设一个文件内容只包含 A S C I I ASCII ASCII 字符集中的字符,那么用 u t f 8 utf8 utf8 来存储所需的空间是用 u t f 32 utf32 utf32 来存储的 1 / 4 1/4 1/4
2 2 2 u t f 32 utf32 utf32 不兼容 A S C I I ASCII ASCII 码。即:同样一个十六进制表示 0 x 41 0x41 0x41,在 A S C I I ASCII ASCII u t f 8 utf8 utf8 两种编码中表示内容一样且都为字符 A A A 的合法编码。

utf8编码

u t f 8 utf8 utf8 编码和 u t f 16 utf16 utf16 都为变长编码。 u t f 8 utf8 utf8 1 − 4 1-4 14 字节来表示一个特定字符。具体编码规则如下所示:

码点范围码点二进制表示编码规则字节数
U + 0000 − U + 007 F U+0000-U+007F U+0000U+007F 0 b x x x x x x x 0bxxxxxxx 0bxxxxxxx 0 b 0 x x x x x x x 0b0xxxxxxx 0b0xxxxxxx1字节
U + 0080 − U + 07 F F U+0080-U+07FF U+0080U+07FF 0 b x x x   x x x x   x x x x 0bxxx \ xxxx\ xxxx 0bxxx xxxx xxxx 0 b 110 x x x x x   10 x x x x x x 0b110xxxxx \ 10xxxxxx 0b110xxxxx 10xxxxxx2字节
U + 0800 − U + F F F F U+0800-U+FFFF U+0800U+FFFF 0 b x x x x   x x x x   x x x x   x x x x 0bxxxx\ xxxx \ xxxx \ xxxx 0bxxxx xxxx xxxx xxxx 0 b 1110 x x x x   10 x x x x x x   10 x x x x x x 0b1110xxxx \ 10xxxxxx \ 10xxxxxx 0b1110xxxx 10xxxxxx 10xxxxxx3字节
U + 01   0000 − U + 10   F F F F U+01 \ 0000-U+10 \ FFFF U+01 0000U+10 FFFF 0 b x   x x x x   x x x x   x x x x   x x x x   x x x x 0bx \ xxxx \ xxxx \ xxxx \ xxxx\ xxxx 0bx xxxx xxxx xxxx xxxx xxxx 0 b 11110 x x x   10 x x x x x x   10 x x x x x x   10 x x x x x x 0b11110xxx \ 10xxxxxx \ 10xxxxxx \ 10xxxxxx 0b11110xxx 10xxxxxx 10xxxxxx 10xxxxxx4字节

1 1 1:编码时只需根据码点范围按照码点二进制表示,高位补 0 0 0,填充编码规则中所需的空缺即可。
2 2 2:解码时只需要考虑首字节中最高位 0 b i t 0bit 0bit 左侧 1 b i t 1bit 1bit 的个数,即为当前字符所占用字节数。
例如:编码 U + 00 E 9 U+00E9 U+00E9 对于字符为 e ˊ é eˊ。根据范围知道其需要二字节编码, 0 0 0 扩展到 11 b i t 11bit 11bit 0 b 000   1110   1001 0b000 \ 1110 \ 1001 0b000 1110 1001。依次填充可知该字符 u t f 8 utf8 utf8 编码结果为 0 b 11000011   10101001 = 0 x c 3 a 9 0b11000011 \ 10101001=0xc3a9 0b11000011 10101001=0xc3a9

utf8编码函数示例

下面给出编码函数如下所示:

参数buf为待填入编码值的缓冲区,c为32位unicode码点
返回值为该字符所需编码长度

int encode_utf8(char *buf, uint32_t c) {
  // 一字节编码
  if (c <= 0x7F) {
    buf[0] = c;
    return 1;
  }
  // 二字节编码,首字节待填充5位,第二字节待填充6位
  if (c <= 0x7FF) {
    buf[0] = 0b11000000 | (c >> 6);
    buf[1] = 0b10000000 | (c & 0b00111111);
    return 2;
  }
  // 三字节编码,首字节待填充4位,第二字节待填充6位,第三字节待填充6位
  if (c <= 0xFFFF) {
    buf[0] = 0b11100000 | (c >> 12);
    buf[1] = 0b10000000 | ((c >> 6) & 0b00111111);
    buf[2] = 0b10000000 | (c & 0b00111111);
    return 3;
  }
  // 四字节编码,首字节待填充3位,第二字节待填充6位,第三字节待填充6位,第四字节待填充6位
  buf[0] = 0b11110000 | (c >> 18);
  buf[1] = 0b10000000 | ((c >> 12) & 0b00111111);
  buf[2] = 0b10000000 | ((c >> 6) & 0b00111111);
  buf[3] = 0b10000000 | (c & 0b00111111);
  return 4;
}

可通过如下主函数测试该编码函数的正确性:

int main(){
    char buf[4];
    int len=encode_utf8(buf,0x000000E9);
    system("chcp 65001");                // 终端使用utf8编码
    for(int i=0;i<len;i++)printf("%x",(unsigned char)buf[i]);
    std::cout<<std::endl;
    std::cout<<buf<<std::endl;
    return 0;
}

v s c o d e + m i n g w vscode+mingw vscode+mingw 的环境下有输出如下所示:

在这里插入图片描述

utf8解码函数示例

下面给出解码函数如下所示:

参数buf为给定utf8编码序列
返回值为该字符unicode码点

uint32_t decode_utf8(char *p) {
  // 单字节编码
  if ((unsigned char)*p < 128) {
    return *p;
  }

  int len;
  uint32_t c;
  
 
  if ((unsigned char)*p >= 0b11110000) {        // 四字节编码,起始11110xxx,3bit有效
    len = 4;
    c = *p & 0b111;
  } else if ((unsigned char)*p >= 0b11100000) { // 三字节编码,起始1110xxxx,4bit有效
    len = 3;
    c = *p & 0b1111;
  } else if ((unsigned char)*p >= 0b11000000) { // 二字节编码,起始110xxxxx,5bit有效
    len = 2;
    c = *p & 0b11111;
  } else {
    std::cout<<"invalid UTF-8 sequence"<<std::endl;
  }

  for (int i = 1; i < len; i++) {
    if ((unsigned char)p[i] >> 6 != 0b10)
      std::cout<<"invalid UTF-8 sequence"<<std::endl;
    c = (c << 6) | (p[i] & 0b111111);
  }

  return c;
}

可通过如下主函数测试该编码函数的正确性:

int main(){
    unsigned char buf[4]={0xc3,0xa9,0x00,0x00};
    uint32_t code=decode_utf8((char*)buf);
    system("chcp 65001");
    std::cout<<buf<<std::endl;
    std::cout<<std::hex<<code<<std::endl;
    return 0;
}

v s c o d e + m i n g w vscode+mingw vscode+mingw 的环境下有输出如下所示:

在这里插入图片描述

utf16编码

u t f 16 utf16 utf16 为变长编码,采用 2 2 2 字节或 4 4 4 字节编码。不兼容 A S C I I ASCII ASCII 码。

上文提到,码点范围从 U + 0000 U+0000 U+0000 U + F F F F U+FFFF U+FFFF 为基本多文种平面,包括绝大多数常用字符。 u t f 16 utf16 utf16 编码对常用的基本多文种平面直接使用 2 2 2 字节编码,超过这个范围的码点使用 4 4 4 字节编码。
具体编码规则如下所示:

码点范围码点二进制表示编码规则字节数
U + 0000 − U + F F F F U+0000-U+FFFF U+0000U+FFFF 0 b x x x x x x x x   x x x x x x x x 0bxxxxxxxx \ xxxxxxxx 0bxxxxxxxx xxxxxxxx 0 b x x x x x x x x   x x x x x x x x 0bxxxxxxxx \ xxxxxxxx 0bxxxxxxxx xxxxxxxx2字节
U + F F F F − U + 10 F F F F U+FFFF-U+10FFFF U+FFFFU+10FFFF c o d e   p o i n t − 0 x 10000 = 0 b y y y y   y y y y   y y x x   x x x x   x x x x code \ point - 0x10000=0byyyy \ yyyy \ yyxx \ xxxx \ xxxx code point0x10000=0byyyy yyyy yyxx xxxx xxxx 0 x D 800 + 0 b y y y y   y y y y   y y 0xD800+0byyyy \ yyyy \ yy 0xD800+0byyyy yyyy yy
0 x D C 00 + 0 b x x   x x x x   x x x x 0xDC00+0bxx \ xxxx \ xxxx 0xDC00+0bxx xxxx xxxx
4字节

1 1 1:这里四字节编码中码点需要减去 0 x 10000 0x10000 0x10000 ,最大码点 0 x 10 F F F F − 0 x 10000 = 0 x F F F F F 0x10FFFF-0x10000=0xFFFFF 0x10FFFF0x10000=0xFFFFF
2 2 2:上文提及 u t f 16 utf16 utf16 编码特性使得 U n i c o d e Unicode Unicode 标准中有 2 11 2^{11} 211 个码点未编码实际字符,该未编码字符的码点范围为: U + D 800 U+D800 U+D800 U + D F F F U+DFFF U+DFFF。用来作为 u t f 16 utf16 utf16 四字节编码的范围。

utf16编码解码函数示例

下面给出编码函数如下所示:

参数buf为待填入编码值的缓冲区,缓冲区单元为2字节单元,c为32位unicode码点
返回值为该字符所需编码长度

int encode_utf16(uint16_t *buf, uint32_t c) {
    int len=0;
    if (c < 0x10000) {
      // 2字节编码
      buf[len++] = c;
      return 2;
    } else {
      // 4字节编码
      c -= 0x10000;
      buf[len++] = 0xd800 + ((c >> 10) & 0x3ff);
      buf[len++] = 0xdc00 + (c & 0x3ff);
      return 4;
    }
}

下面给出解码函数如下所示:

参数buf为填入编码值的缓冲区,缓冲区单元为2字节单元
返回值为该字符的unicode码点

uint32_t decode_utf16(uint16_t *buf) {
    uint32_t code;
    if ((*buf) >= 0xD800 && (*buf) <= 0xDBFF) {
      code = ((*buf)-0xD800)&0x3ff;
      buf++;
      if (!(*buf) >= 0xDC00 && (*buf) <= 0xDFFF){
          std::cerr<<"error utf16 code"<<std::endl;
          return 0;
      }
      code = (code<<10)|(((*buf)-0xDC00)&0x3ff);
      return code+0x10000;
    } else {
      return *buf;
    }
}

可通过如下主函数测试该编码解码函数的正确性:

int main(){
    uint16_t buf[2];
    int len=encode_utf16(buf,0x10ABC);
    for(int i=0;i<len/2;i++)printf("%x",buf[i]);
    printf("\n");
    uint32_t code=decode_utf16(buf);
    printf("0x%08x",code);
    printf("\n");
    return 0;
}

v s c o d e + m i n g w vscode+mingw vscode+mingw 输出如下图所示:

在这里插入图片描述

注:关于 u t f 32 utf32 utf32 编码到 U n i c o d e Unicode Unicode 码点的转换则不需要程式,直接通过无符号扩展到 32 b i t 32bit 32bit 即可,不再给出。

总结

完结撒花!

  • 14
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Unicode字符集是一种包含了世界上几乎所有字符的编码标准,包括了各种语言的字母、符号、标点、数字等等。它为每个字符分配了一个唯一的数字编号,这个编号被称为Unicode码点。 UTF-8编码是一种将Unicode字符集中的码点转换成字节序列的方法。它是一种可变长度的编码方式,使用1到4个字节来表示不同的字符,其中ASCII字符只需要1个字节,而中文等非ASCII字符则需要2到3个字节。UTF-8编码具有向后兼容性,可以表示Unicode字符集中的所有字符,因此被广泛应用于互联网和计算机系统中。 ### 回答2: Unicode字符集是一种用于描述世界各种语言的字符集合的标准规范。Unicode字符集包含了现今世界上大部分语言所使用的字符,包括字母、数字、符号、标点符号以及各种特殊字符。Unicode字符集采用唯一的数字编号来表示每个字符,这些数字被称为“码位”或“码点”。 UTF-8编码是一种针对Unicode字符集编码方案,可以将Unicode字符集中的每个字符以不同的排列组合方式表示为一组字节,使得这些字符能够在计算机中被存储和传输。UTF-8编码采用可变长度的编码方式,对于不同范围内的字符,采用不同长度的字节表示。例如,对于ASCII字符集中的字符,UTF-8编码只需要用一个字节表示,而对于其他语言的字符,则需要用两个、三个或四个字节来表示。 相比于其他编码方案,UTF-8编码具有许多优势。首先,UTF-8编码能够支持所有的Unicode字符,包括汉字、日语假名、俄文字母和阿拉伯语字母等。其次,UTF-8编码具有良好的兼容性,能够在不同的操作系统、浏览器和编辑器中使用。最后,UTF-8编码还具有节省空间的优势,因为它可以根据字符所在范围的不同动态调整字节的长度,有效地减少字节数,从而节省存储空间和带宽。 总之,Unicode字符集UTF-8编码是现今计算机技术中使用最广泛的字符集编码方案。他们为计算机在处理不同语言和字符类型的文本数据时提供了可靠的工具和标准,大大提高了计算机的文本应用能力。 ### 回答3: Unicode是全球字符集,它为世界上几乎所有的符号分配了唯一的标识符。由于计算机只能理解数字,Unicode为每个字符分配了一个唯一的数字,从而使计算机能够正确地显示、存储和处理文本。Unicode字符集由超过128,000个字符组成,其中包括各种字母、数字、标点符号、符号和特殊字符。 UTF-8是一种广泛使用的Unicode编码,它使用1到4个字节来表示每个字符。UTF-8编码使用变长编码方法,这意味着不同字符使用不同数量的字节来表示。对于较小的字符,UTF-8只需要1个字节,而对于较大的字符,UTF-8需要多个字节。这使得UTF-8成为比其他Unicode编码更节省空间和更灵活的编码方式。 在计算机上,文本通常被存储为字节序列。使用Unicode字符集UTF-8编码可以确保多种语言的文本能够正确存储和处理,从而实现跨语言的通信和交流。今天,大多数操作系统和应用程序都支持UnicodeUTF-8编码

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值