字符编码:Unicode/UTF-8/UTF-16/UCS/Endian/BMP/BOM

 

Unicode(Universal Multiple-Octet Coded Character Set):
目前最流行和最有前途的字符编码规范,因为它解决了不同语言编码的冲突。

Uicode由来:
最初的字符编码ascii(8bit,最高位为0)只能表示128个字符,表示英文、数字和一些符号是没问题。但是世界不止一种语言,即使用上了最高为1的扩展ascii码,也只有256个字符。
对中日韩文、阿拉伯文之类复杂的文字,就无法使用了。
于是,各国都制定了自己的兼容ascii编码规范,就是各种ANSI码,比如我国的gb2312,用两个扩展ascii字符来表示一个中文。但是这些ansi码无法同时存在,因为它们的定义互相重叠,要自由使用不同语言就必须有一个新编码,为各种文字统一分配编码。
ISO(国际标准化组织)和Uicode协会(一个软件制造商的协会)分别开始了这个工作。即ISO的ISO 10646项目和Unicode协会的Unicode项目。后来它们开始合并了双方的工作成果,采用相同的字库和字码。但目前两个项目都存在并独立地公布自己的标准。

UCS(Unicode Character Set):
这是Uicode在ISO的名称,目有两套编码方法,UCS-2(Unicode)用2个字节表示一个字符,UCS-4(Unicode-32)用4个字节表示一个字符。UCS-4是由USC-2扩展来的,增加了2字节的高位。即使是老UCS-2,它也可以表示2^16=65535个字符,基本上可以容纳所有常用各国字符,所以目前基本都使用UCS-2。

UTF(UCS Transformation Format):
Unicode使用2个字节表示一个字符,ascii使用1个字节,所以在很多方面产生了冲突,以前处理ascii的方法都必须重写。而且C语言用/0作为字符串结束标志,但Unicode中很多字符都含/0,C语言的字符串函数也无法正常处理Unicode。为了把unicode投入实用,出现了UTF,最常见的是UTF-8和UTF-16。
 其中UTF-16和Unicode本身的编码是一致的,UTF-32和UCS-4也是相同的。最重要的是UTF-8,可以完全兼容ascii编码 。UTF是一种变长的编码,它的字节数是不固定的,使用第一个字节确定字节数。第一个字节首为0即一个字节,110即2字节,1110即3字节,字符后续字节都用10开始,这样不会混淆且单字节英文字符可仍用ASCII编码。理论上UTF-8最大可以用6字节表示一个字符,但Unicode目前没有用大于0xffff的字符,实际UTF-8最多使用了3个字节。
unicode转化为UTF-8的方法
Unicode码范围  UTF-8编码(把Unicode码转为二进制填充x处)
0000-007F    0xxxxxxx
0080-07FF    110xxxxx 10xxxxxx
0800-FFFF    1110xxxx 10xxxxxx 10xxxxxx
汉字的Unicode编码范围是0080-07FF,因此是2字节编码。

Big Endian(大字节序)和Little Endian(小字节序):
Unicode存储时有个字节序问题,就是一个多字节数字,是从大到小排列还是反之。这和CPU处理有关,一般x86处理时都是倒置的,即大数在前。就像“莫”字的Unicode码0x83ab,按Big Endian就变成了0xab83。

BOM(Byte Order Mark):
因为Unicode存储时字节序的问题,在Unicode文本前插入一个不存在的字符(ZERO WIDTH NO-BREAK SPACE)作为标志来分辨两种字节序。标志0xfeff说明按Big Endian字节序,而0xfffe说明Little-Endian。
UTF-8不需要BOM来说明字节序,但可以用BOM标志编码方式。遇到带0xefbbbf开头的文本,计算机就可以不需要分辨直接按UTF-8编码处理。

BMP(Basic Multilingual Plane):
这是Unicode实际和字符对应的划分方式中的概念。
按UCS-4为例子
首字节首位恒为0,剩下7位可以划分2^7=128个group(组)。
第二个字节,每个group下面可以有2^8=256个plane(平面)。
第三个字节,可以给每个palne带来256个row(行)。
第四个字节,这里的8位又可以每row可以划分256个cell(格子)。
group 0中的plane 0就是BMP,即前两个字节为0x0000的UCS-4码。去掉0x0000的BMP上的UCS-4就变成了UCS-2编码。或者说UCS-2是USC-4的子集,BMP就是UCS-2在USC-4中的位置。我们从这里还可以得到USC-2转为UCS-4的方法,再UCS-2前面插入2个字节0x0000。

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
在Linux下,可以使用iconv库进行Unicode编码转换。下面是一个示例代码,将Unicode字符串转换成字节数组、将字节数组转换成Unicode字符串: ```c++ #include <iconv.h> #include <string.h> #include <stdio.h> int main() { // 将Unicode字符串转换成字节数组 const char *unicode_str = u8"\u4F60\u597D"; size_t unicode_len = strlen(unicode_str); size_t buf_len = unicode_len * 4; // 一个Unicode字符最多占4个字节 char *buf = new char[buf_len]; memset(buf, 0, buf_len); iconv_t cd = iconv_open("UTF-8", "UCS-2LE"); char *in_buf = (char*)unicode_str; char *out_buf = buf; size_t in_len = unicode_len; size_t out_len = buf_len; int ret = iconv(cd, &in_buf, &in_len, &out_buf, &out_len); if (ret == -1) { perror("iconv"); return -1; } printf("字节数组: "); for (size_t i = 0; i < buf_len - out_len; ++i) { printf("%02X ", (unsigned char)buf[i]); } printf("\n"); // 将字节数组转换成Unicode字符串 char *byte_str = buf; size_t byte_len = buf_len - out_len; size_t unicode_buf_len = byte_len / 2 + 1; // 一个Unicode字符占2个字节 char *unicode_buf = new char[unicode_buf_len]; memset(unicode_buf, 0, unicode_buf_len); cd = iconv_open("UCS-2LE", "UTF-8"); in_buf = byte_str; out_buf = unicode_buf; in_len = byte_len; out_len = unicode_buf_len; ret = iconv(cd, &in_buf, &in_len, &out_buf, &out_len); if (ret == -1) { perror("iconv"); return -1; } printf("Unicode字符串: %s\n", unicode_buf); delete[] buf; delete[] unicode_buf; return 0; } ``` 需要注意的是,iconv库只能处理单个Unicode字符,如果要处理Unicode字符串,则需要将其拆分成单个Unicode字符进行转换。上面的示例代码中,使用了UCS-2LE编码,可以根据需要修改为其他编码

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值