wchar_t
程序需要处理的字符集可能无法用一个8位字节表示,如日文汉字系统。对于这种情况,我们将char定义为一个16位的字节或更长的字节。其次,一种实现可以同时支持一个小型基本字符集和一个较大的扩展字符集。8位char可以表示基本字符集,另一种wchar_t(宽字符类型)可以表示扩展字符集。wchar_t类型是一种整数类型,它有足够长的空间,可以表示系统使用的最大扩展字符集。这种类型与另一种整型(底层(underlying)类型)的长度和符号属性相同。对底层类型的选择取决于实现,因此在一个系统中,它可能是unsigned short,而在另一个系统中,则可能是int。
cin和cout将输入和输出看作是char流,因此不适于用来处理wchar_t类型。因此iostream提供了工具——wcin和wcout,可用于处理wchar_t流。另外可以通过加上前缀L来指示宽字符常量和宽字符串。下面的代码将字母P的wchar_t版本存储到变量bob中,并显示单词tall的wchar_t版本:
wchar_t bob = L'P'; //a wide-character constant
wcout << L"tall" << endl; //outputting a wide-character string
char16_t和char32_t
事实上,在计算机系统上进行字符和字符串编码时,仅适用Unicode码点并不够。具体地说,进行字符串编码时,如果有特定长度和符号类型,将很有帮助。C++11新增了类型char16_t和char32_t两者都是无符号型。类型char16_t与/u00F6形式的通用字符名匹配,而类型char32_t与/U0000222B形式的通用字符名相匹配。
char16_t ch1 = u'q'; //basic character in 16 bit form
char32_t ch2 = U'\U0000222B'; // universal character name in 32 bit form
char16_t与char32_t 也都有底层类型——一种内置的整型,但底层类型可能随系统而已。