wchar_t 作为C++中新引进的keyword 具有很多的特性,但是他也给使用者带来了很多的不方便。 C++标准中,wchar_t是宽字符类型,但是大小了,实现了C++标准据我所知没有定义。另外还有一点比较讨厌的是:对于字符串常量的L"xxxx"的编码问题C++标准并没有规定,依赖于编译器的实现。Bjarne 的观点认为,C++ 的方式是允许程序员使用任何字符集作为串的字符类型,所以剩下的事情,你们自己实现去吧。
windows中一个汉字转换成字符码需要两个字符,因为而自从GB18030-2000标准发布以后,在我国发布的操作系统都必须强制执行该标准,也就是说我们现在普遍使用的简体中文操作系统都是基于GB18030-2000编码标准来解释汉字的,所以对于一个汉字:
wchar_t wc[]= L"中国";
sizeof(wc) == 6(不要忘记还有两个00的结束符)
但是linux 以及 unix 上面的 却不一样了:
wchar_t wc[]= L"中国";
sizeof(wc) == 10(不要忘记还有两个00的结束符)
呵呵,有意思吧。
windows在使用wchar_t的过程中,会将其字符集转换成windows统一的编码 如:
wchar_t a[] = L"你好中国";
char *p = (char *)a;
for(int i= 0; i<8; ++i){
cout<<hex<<(int)p[i]<<endl;
}
输出为: 60 4f 7d 59 2d 4e fd 56
但是原码为:
string s = "你好中国";
const char *p1 = s.c_str();
for( i= 0; i<strlen(p1); ++i){
cout<<hex<<(int)p1[i]<<endl;
}
输出:c4 e3 ba c3 d6 d0 b9 fa
GCC下面的情况也比较有意思:
gcc下wchar_t, 汉字是4个字节,或许其内部处理比较简单,每个字节后面 + 00
wchar_t a[] = L"你好中国";
char *p = (char *)a;
for(int i= 0; i<8; ++i){
cout<<hex<<(int)p[i]<<endl;
}
输出为:c4 00 e3 00 ba 00 c3 00 d6 00 d0 00 b9 00 fa 00