C++中宽字节的编码方式

最新推荐文章于 2024-05-10 11:53:31 发布

Cgengzhihui

最新推荐文章于 2024-05-10 11:53:31 发布

阅读量970

点赞数 2

分类专栏：编程基础文章标签：宽字符字符编码

编程基础专栏收录该内容

9 篇文章 0 订阅

订阅专栏

C++中宽字节的编码方式

Unicode，UTF-8，UTF-16 完整的说明参见 Wiki。简单来说，Unicode 定义了所有可以用来表示字符的数值集合（称之为 Code Point），而UTF-8 和 UTF-16 等 UTF 标准定义了这些数值和字符的映射关系--Unicode的具体实现。

UTF-8 优势：UTF-8 没有字节序的概念（大小端问题），所以特别适合用于字符串的网络数据传输。UTF-8 劣势：本地字符串处理过程中，如果使用 UTF-8，对于英文字符的处理没有太大的问题，因为一个 char 变量表示一个英文字符。但是对于中文等远东字符集来说，就比较坑爹了。char str[]; str[0]并不能完整表示一个汉字。UTF-8 编码格式下，一个汉字需要至少3个char才能表示。这对于通过下标来操作字符串的操作来说是非常痛苦的一件事情。另外，一个汉字需要至少3个char来表示，也让汉字在网络传输占用太多流量。

UTF-16优势：UTF-16 LE是 windows 上默认的 Unicode 编码方式，使用 wchar_t 表示。所有 wchar_t *类型的字符串(包括硬编码在.h/.cpp 里的字符串字面值)，VC 都自动采用 UTF-16 的编码(字符串字面值，literal string，存在很多坑。特别是 char *类型的字面值，最终内存使用何种编码方式完全取决于当前文件的编码方式。也就是说当前文件如果是 GBK 编码的，那么文件里 char * str = "中午"，str 指向的内存字符串二进制是使用 GBK 编码的。如果文件编码是 UTF-8，那么内存是使用 UTF-8 编码。所以为什么一直要强调字符串应该放在资源文件里，而不是硬编码在.h/.cpp 文件里！)。UTF-16 另一个优势就是常用字符都可以使用两个字节表示，也就是一个 wchar_t(Windows平台)。所以，在 Windows 平台上，特别适合使用 wchar_t 来作为字符串的存储基类型。一个 wchar_t 表示一个字符。操作使用非常方便。UTF-16劣势：没有统一的表示 UTF-16 编码的字符类型。C++98/03 里对 wchar_t 的定义是非常宽泛的。这导致在 Windows 平台上，wchar_t 是 2 字节的；在 Unix-like 系统上是 4 字节的。代码移植上，可能会遇到挑战(我没移植过，所以不确定会有什么难度，以及难度有多大)。即使最新的 C++11 里已经定义除了 char16_t 表示 UTF-16，MS 的 VS2013 还不支持 char16_t。所以目前使用 char16_t 还不具移植性。据我了解，UTF-16 编码和 GBK 编码相比，还存在一个排序的劣势。也就是说，如果要按照汉语拼音的字母顺序对汉字进行排序，GBK 会得到正确的结果，而 UTF-16 就不行。

Unicode 汉字编码表目前普遍采用的是 UCS-2,它用两个字节来编码一个字符, 比如汉字"经"的编码是 0x7ECF，UCS-2 用两个字节来编码字符,两个字节就是 16 位二进制, 2 的 16 次方等于 65536,所以 UCS-2 最多能编码 65536 个字符。编码从 0 到 127 的字符与 ASCII 编码的字符一样,比如字母 "a"的 Unicode 编码是 0x0061,十进制是 97,而"a"的 ASCII 编码是 0x61,十进制也是 97, 对于汉字的编码,事实上 Unicode 对汉字支持不怎么好,这也是没办法的, 简体和繁体总共有六七万个汉字,而 UCS-2 最多能表示 65536 个,才六万多个,所以 Unicode 只能排除一些几乎不用的汉字,好在常用的简体汉字也不过七千多个,为了能表示所有汉字,Unicode 也有 UCS-4 规范,就是用 4 个字节来编码字符,不过现在普遍采用的还是 UCS-2，只用两个字节来编码。看一下 Unicode 对汉字的编码:

-------------------------------------------------------------------

U+ 0 1 2 3 4 5 6 7 8 9 A B C D E F

4e00 一丁丂七丄丅丆万丈三上下丌不与丏

4e10 丐丑丒专且丕世丗丘丙业丛东丝丞丟

4e20 丠両丢丣两严並丧丨丩个丫丬中丮丯

4e30 丰丱串丳临丵丶丷丸丹为主丼丽举丿

4e40 乀乁乂乃乄久乆乇么义乊之乌乍乎乏

4e50 乐乑乒乓乔乕乖乗乘乙乚乛乜九乞也

4e60 习乡乢乣乤乥书乧乨乩乪乫乬乭乮乯

4e70 买乱乲乳乴乵乶乷乸乹乺乻乼乽乾乿

4e80 亀亁亂亃亄亅了亇予争亊事二亍于亏

4e90 亐云互亓五井亖亗亘亙亚些亜亝亞亟

4ea0 亠亡亢亣交亥亦产亨亩亪享京亭亮亯

4eb0 亰亱亲亳亴亵亶亷亸亹人亻亼亽亾亿

4ec0 什仁仂仃仄仅仆仇仈仉今介仌仍从仏

4ed0 仐仑仒仓仔仕他仗付仙仚仛仜仝仞仟

4ee0 仠仡仢代令以仦仧仨仩仪仫们仭仮仯

4ef0 仰仱仲仳仴仵件价仸仹仺任仼份仾仿

4f00 伀企伂伃伄伅伆伇伈伉伊伋伌伍伎伏

4f10 伐休伒伓伔伕伖众优伙会伛伜伝伞伟

4f20 传伡伢伣伤伥伦伧伨伩伪伫伬伭伮伯

4f30 估伱伲伳伴伵伶伷伸伹伺伻似伽伾伿

4f40 佀佁佂佃佄佅但佇佈佉佊佋佌位低住

4f50 佐佑佒体佔何佖佗佘余佚佛作佝佞佟

4f60 你佡佢

-------------------------------------------------------------------

UTF-16和UCS-2都是Unicode的编码方式。

Unicode的码空间从U+0000到U+10FFFF，共有1,112,064个码位(code point)可用来映射字符. Unicode的码空间可以划分为17个平面(plane)，每个平面包含216(65,536)个码位。每个平面的码位可表示为从U+xx0000到U+xxFFFF, 其中xx表示十六进制值从0016 到1016，共计17个平面。

第一个Unicode平面(码位从U+0000至U+FFFF)包含了最常用的字符，该平面被称为基本多语言平面（Basic Multilingual Plane），缩写为BMP。其他平面称为辅助平面(Supplementary Planes)。

UCS-2 (2-byte Universal Character Set)是一种定长的编码方式，UCS-2仅仅简单的使用一个16位码元来表示码位，也就是说在0到0xFFFF的码位范围内，它和UTF-16基本一致。

UTF-16 (16-bit Unicode Transformation Format)是UCS-2的拓展，它可以表示BMP以为的字符。UTF-16使用一个或者两个16位的码元来表示码位，这样就可以对0到0x10FFFF的码位进行编码。

但是在BMP之外的字符，例如?，只能用UTF-16进行编码，使用两个16为码元来表示：0xD834 0xDF06。这被称作代理对，值得注意的是一个代理对仅仅表示一个字符，而不是两个。UCS-2并没有代理对的概念，所以会将0xD834 0xDF06解释为两个字符。

简单的说，UTF-16可看成是UCS-2的父集。在没有辅助平面字符（surrogate code points）前，UTF-16与UCS-2所指的是同一的意思。（严格的说这并不正确，因为在UTF-16中从U+D800到U+DFFF的码位不对应于任何字符，而在使用UCS-2的时代，U+D800到U+DFFF内的值被占用。）但当引入辅助平面字符后，就称为UTF-16了。

一般认为Windows下以16bit表示的Unicode并不是UTF-16，而是UCS-2。UCS-2是一种编码格式，同时也是指以一一对应关系的Unicode实现。在UCS-2中只能表示U+0000到U+FFFF的BMP(Basic Multilingual Plane ) Unicode编码范围，属于定长的Unicode实现，而UTF-16是变长的，类似于UTF-8的实现，但是由于其字节长度的增加，所以BMP部分也做到了一一对应，但是其通过两个双字节的组合可以做到表示全部Unicode，表示范围从U+0000 到 U+10FFFF。关于这一点，我在很多地方都看到混淆了，混的我自己都有点不太肯定自己的说法了，还好在《UTF-16/UCS-2》中还是区别开了，不然我不知道从哪里去寻找一个正确答案。（哪怕在IBM的相关网页上都将UCS-2作为UTF-16的别名列出）

在《UTF-16/UCS-2》文中有以下内容：

UTF-16 is the native internal representation of text in the Microsoft Windows 2000/XP/2003/Vista/CE; Qualcomm BREW operating systems; theJava and .NET bytecode environments; Mac OS X's Cocoa and Core Foundation frameworks; and the Qt cross-platform graphical widget toolkit.[1][2][citation needed]

Symbian OS used in Nokia S60 handsets and Sony Ericsson UIQ handsets uses UCS-2.

The Joliet file system, used in CD-ROM media, encodes filenames using UCS-2BE (up to 64 Unicode characters per file).

Older Windows NT systems (prior to Windows 2000) only support UCS-2.[3]. In Windows XP, no code point above U+FFFF is included in any font delivered with Windows for European languages, possibly with Chinese Windows versions.[clarification needed]

转自：http://blog.sina.com.cn/s/blog_7ade159d0102xbfc.html