Unicode相关的编码问题

最新推荐文章于 2022-03-15 19:26:26 发布

pengpengfly

最新推荐文章于 2022-03-15 19:26:26 发布

阅读量605

点赞数

分类专栏：自然语言搜索引擎之技术与算法文章标签： encoding character transformation powerpoint microsoft 语言

本文链接：https://blog.csdn.net/pengpengfly/article/details/3589288

版权

搜索引擎之技术与算法同时被 2 个专栏收录

18 篇文章 0 订阅

订阅专栏

自然语言

15 篇文章 0 订阅

订阅专栏

以下转载于Internet

一、Unicode由来

Unicode(Universal Multiple-Octet Coded Character Set):
目前最流行和最有前途的字符编码规范,因为它解决了不同语言编码的冲突。

最初的字符编码ascii(8bit,最高位为0)只能表示128个字符,表示英文、数字和一些符号是没问题。但是世界不止一种语言,即使用上了最高为1的扩展ascii码,也只有256个字符。
对中日韩文、阿拉伯文之类复杂的文字,就无法使用了。
于是,各国都制定了自己的兼容ascii编码规范,就是各种ANSI码,比如我国的gb2312，用两个扩展ascii字符来表示一个中文。但是这些ansi码无法同时存在,因为它们的定义互相重叠,要自由使用不同语言就必须有一个新编码,为各种文字统一分配编码。
ISO(国际标准化组织)和Uicode协会(一个软件制造商的协会）分别开始了这个工作。即ISO的ISO 10646项目和Unicode协会的Unicode项目。后来它们开始合并了双方的工作成果，采用相同的字库和字码。但目前两个项目都存在并独立地公布自己的标准。

UCS(Unicode Character Set):
这是Uicode在ISO的名称,目有两套编码方法,UCS-2(Unicode)用2个字节表示一个字符,UCS-4(Unicode-32)用4个字节表示一个字符。UCS-4是由USC-2扩展来的,增加了2字节的高位。即使是老UCS-2,它也可以表示2^16=65535个字符,基本上可以容纳所有常用各国字符,所以目前基本都使用UCS-2。

UTF(UCS Transformation Format):
Unicode使用2个字节表示一个字符,ascii使用1个字节,所以在很多方面产生了冲突，以前处理ascii的方法都必须重写。而且C语言用/0作为字符串结束标志,但Unicode中很多字符都含/0,C语言的字符串函数也无法正常处理Unicode。为了把unicode投入实用,出现了UTF,最常见的是UTF-8和UTF-16。
其中UTF-16和Unicode本身的编码是一致的,UTF-32和UCS-4也是相同的。最重要的是UTF-8,可以完全兼容ascii编码。UTF是一种变长的编码,它的字节数是不固定的,使用第一个字节确定字节数。第一个字节首为0即一个字节,110即2字节,1110即3字节,字符后续字节都用10开始,这样不会混淆且单字节英文字符可仍用ASCII编码。理论上UTF-8最大可以用6字节表示一个字符,但Unicode目前没有用大于0xffff的字符,实际UTF-8最多使用了3个字节。

二，UTF-8, UTF-16和UTF-32的定义及转换

1. Definition
Unicode: International uniqe character set(UCS) standard.
UTF-16BE: A specific Unicode store encoding, based on Unicode's big-endian.

UTF-16BE: A specific Unicode store encoding, based on Unicode's little-endian
UTF-8: A specific 8 leading code Unicode store encoding standard.

2. UTF-8 Encoding Standard:
     U-00000000 - U-0000007F: 0xxxxxxx
     U-00000080 - U-000007FF: 110xxxxx 10xxxxxx
     U-00000800 - U-0000FFFF: 1110xxxx 10xxxxxx 10xxxxxx
     U-00010000 - U-001FFFFF: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
     U-00200000 - U-03FFFFFF: 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
     U-04000000 - U-7FFFFFFF: 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

3. Header Charset/encoding
     EF BB BF　　　 UTF-8
     FF FE　　　　　UTF-16/UCS-2, little endian
     FE FF　　　　　UTF-16/UCS-2, big endian
     FF FE 00 00　　UTF-32/UCS-4, little endian.
     00 00 FE FF　　UTF-32/UCS-4, big-endian.

4. Chinese characters encoding example:
     '连通' Unicode:        DE 8F 1A 90
     '连通' UTF-8:          E8 BF 9E E9 80 9A
     '连通' UTF-16BE 文本: FF FE DE 8F 1A 90
     '连通' UTF-8 文本:     EF BB BF E8 BF 9E E9 80 9A

5. How to convert among them, Unicode to UTF-8
     pOut[0] = (0xE0 | ((pchar[1] & 0xF0) >> 4));
     pOut[1] = (0x80 | ((pchar[1] & 0x0F) << 2)) + ((pchar[1] & 0xC0) >> 6);
     pOut[2] = (0x80 | (pchar[0] & 0x3F));

以下为pengpeng个人认为

至于判断一个文件采用何种编码，这个过程比较复杂:

（1）有一些文件在文件的开头是有预定义的，比如Microsoft的Office，e.g. Word, Outlook, Excel, PowerPoint等等，这些二进制文件在文件的开头都有定义。比如 FE FF 代表 UTF-16BE.

（2）在读取某个字节流的时候，如果规范的字节流，会在流的最前面加上一个不存在的字符作为编码的类型，比如如果是UTF-16BE，则最前面的两个字节是FE FF，如果是UTF-8字节流，则最前面三个字节是EF BB BF。如果没有找到这个不存在的字符，默认按照UTF-16BE的方式。

（3）如果在字节流的中间出现FE FF ，EF BB BF这样的字节，应该可以忽略。

（4）一般微软平台下得文件大都采用UTF-16LE的形势，是不是因为Interl得x86平台都采用Little Endian的原因呢？呵呵，这个有点意思。相反的是Mac平台下得文件大都采用UTF-16BE的形势。

(5) 汉字的Unicode编码范围是0080-07FF,因此是2字节编码。

(6)UTF-16BE和UTF-16LE互相转换可以用(32 bits system):

# define CONVERT_32(x) /
x = ((((x) & 0xff000000) >> 24) | (((x) & 0x00ff0000) >> 8 ) | (((x) & 0x0000ff00) << 8 ) | (((x) & 0x000000ff) << 24));

# define CONVERT_16(x) /
x = ((((x) & 0xff00) >> 8) | (((x) & 0x00ff) << 8));

pengpengfly

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Unicode相关的编码问题

以下转载于Internet 一、Unicode由来Unicode(Universal Multiple-Octet Coded Character Set):目前最流行和最有前途的字符编码规范,因为它解决了不同语言编码的冲突。最初的字符编码ascii(8bit,最高位为0)只能表示128个字符,表示英文、数字和一些符号是没问题。但是世界不止一种语言,即使用上了最高为1的扩展asci
复制链接

扫一扫