由wchar_t 引出的

最新推荐文章于 2024-04-18 09:52:11 发布

xjtufjj

最新推荐文章于 2024-04-18 09:52:11 发布

阅读量1.3k

点赞数

文章标签： windows c++ 编译器 unix string c

本文链接：https://blog.csdn.net/xjtufjj/article/details/1767416

版权

wchar_t 作为C＋＋中新引进的keyword 具有很多的特性，但是他也给使用者带来了很多的不方便。 C++标准中，wchar_t是宽字符类型，但是大小了，实现了C＋＋标准据我所知没有定义。另外还有一点比较讨厌的是：对于字符串常量的L"xxxx"的编码问题C＋＋标准并没有规定，依赖于编译器的实现。Bjarne 的观点认为，C++ 的方式是允许程序员使用任何字符集作为串的字符类型，所以剩下的事情，你们自己实现去吧。
windows中一个汉字转换成字符码需要两个字符，因为而自从GB18030-2000标准发布以后，在我国发布的操作系统都必须强制执行该标准，也就是说我们现在普遍使用的简体中文操作系统都是基于GB18030-2000编码标准来解释汉字的，所以对于一个汉字：
wchar_t wc[]= L"中国";
sizeof(wc) == 6（不要忘记还有两个00的结束符）
但是linux 以及 unix 上面的却不一样了：
wchar_t wc[]= L"中国";
sizeof(wc) == 10（不要忘记还有两个00的结束符）
呵呵，有意思吧。
    windows在使用wchar_t的过程中，会将其字符集转换成windows统一的编码如：
        wchar_t a[] = L"你好中国";
        char *p = (char *)a;
         for(int i= 0; i<8; ++i){
                 cout<<hex<<(int)p[i]<<endl;
         }
     输出为： 60 4f 7d 59 2d 4e fd 56
但是原码为：
        string s = "你好中国";
        const char *p1 = s.c_str();
         for( i= 0; i<strlen(p1); ++i){
                 cout<<hex<<(int)p1[i]<<endl;
         }
输出：c4 e3 ba c3 d6 d0 b9 fa

GCC下面的情况也比较有意思：
ｇｃｃ下wchar_t，汉字是4个字节，或许其内部处理比较简单，每个字节后面＋ 00
        wchar_t a[] = L"你好中国";
        char *p = (char *)a;
         for(int i= 0; i<8; ++i){
                 cout<<hex<<(int)p[i]<<endl;
         }
输出为：c4 00 e3 00 ba 00 c3 00 d6 00 d0 00 b9 00 fa 00

xjtufjj

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
由wchar_t 引出的

wchar_t 作为C＋＋中新引进的keyword 具有很多的特性，但是他也给使用者带来了很多的不方便。 C++标准中，wchar_t是宽字符类型，但是大小了，实现了C＋＋标准据我所知没有定义。另外还有一点比较讨厌的是：对于字符串常量的L"xxxx"的编码问题C＋＋标准并没有规定，依赖于编译器的实现。Bjarne 的观点认为，C++ 的方式是允许程序员使用任何字符集作为串的字符类型，所以剩下的事
复制链接

扫一扫