源代码编码对中文字符串影响

以前写的一些代码里有中文字符串,最近有些奇怪问题,所以研究了一下。

#include<iostream>
using namespace std;
int main()
{
    std::string zh_str = "中文";
        auto s = zh_str.c_str();
        auto len = zh_str.size();
        for (int i = 0; i < len; ++i)
    {
                int t = (char)s[i];
                cout << "[" << i << "]:" << hex << t << endl;
            
    }
}

在win上用vs和Ubuntu上用g++编译运行了一下,结果总结如下:

源代码文件编码格式对字符串影响
文件编码winUbuntu
gb231244
带签名utf-846
不带签名utf-866


4表示输出4个字节,6表示输出6个字节。win的vs在“不带签名utf-8"时,不能确定是什么编码,没有对“中文”处理,中文还是6个字节。有签名的,确认是utf-8,会处理成gb码编译。我用的win是中文版,用其他版本会有不同。
为了避免不确定问题,代码里不要直接用中文字符串。

std::string zh_str = "中文";        //不要这样搞。
std::string zh_str = "\xd6\xd0\xce\xc4";        //中文,要跟gb码字符串比较。
std::string zh_str = "\xe4\xb8\xad\xe6\x96\x87";        //中文,要跟utf-8字符串比较。


代码里不要采用第一种方式,用后面两种方式。
需要确认对比的字符串编码。
如果不知道编码,不要去做比较了,没有意义的。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值