由wchar_t 引出的

wchar_t  作为C++中新引进的keyword 具有很多的特性,但是他也给使用者带来了很多的不方便。 C++标准中,wchar_t是宽字符类型,但是大小了,实现了C++标准据我所知没有定义。另外还有一点比较讨厌的是:对于字符串常量的L"xxxx"的编码问题C++标准并没有规定,依赖于编译器的实现。Bjarne 的观点认为,C++ 的方式是允许程序员使用任何字符集作为串的字符类型,所以剩下的事情,你们自己实现去吧。
windows中一个汉字转换成字符码需要两个字符,因为而自从GB18030-2000标准发布以后,在我国发布的操作系统都必须强制执行该标准,也就是说我们现在普遍使用的简体中文操作系统都是基于GB18030-2000编码标准来解释汉字的,所以对于一个汉字:
wchar_t wc[]= L"中国";
sizeof(wc) == 6(不要忘记还有两个00的结束符)
但是linux 以及 unix 上面的 却不一样了:
wchar_t wc[]= L"中国";
sizeof(wc) == 10(不要忘记还有两个00的结束符)
呵呵,有意思吧。
    windows在使用wchar_t的过程中,会将其字符集转换成windows统一的编码 如:
        wchar_t a[] = L"你好中国";
        char *p = (char *)a;
         for(int i= 0; i<8; ++i){
                 cout<<hex<<(int)p[i]<<endl;
         }
     输出为: 60 4f 7d 59 2d 4e fd 56
但是原码为:
        string s = "你好中国";
        const char *p1 = s.c_str();
         for( i= 0; i<strlen(p1); ++i){
                 cout<<hex<<(int)p1[i]<<endl;
         }
输出:c4 e3 ba c3 d6 d0 b9 fa

GCC下面的情况也比较有意思:
gcc下wchar_t, 汉字是4个字节,或许其内部处理比较简单,每个字节后面 + 00
        wchar_t a[] = L"你好中国";
        char *p = (char *)a;
         for(int i= 0; i<8; ++i){
                 cout<<hex<<(int)p[i]<<endl;
         }
输出为:c4 00 e3 00 ba 00 c3 00 d6 00 d0 00 b9 00 fa 00
  

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值