C++中的中文编码 乱码的根源及解决方案

总结

ASCII规定了127个字符编码,而一个字节最多能表示256种。所以可以根据第一位来判断是不是ASCII编码,如果不是说明这是一个多字节编码。

char 与 std::string,英文字符在 UTF-8 中使用一个字节存储,中文字符使用三个字节存储。

C++ 11 开始支持 UTF-8、UTF-16 和 UTF-32 字符串常量的声明,分别使用 u8""、u"" 和 U"" 作为声明的标志。

wchar_t 与 std::wstring解决多字符编码,占两个字节,且需要使用适配的 std::wcout 和 std::wofstream。windows中的编译器一般将wchar_t定为2个字节宽,而linux中的编译器一般定义wchar_t为4字节宽。用常量字符给wchar_t变量赋值时,前面要加L。如: wchar_t wch2 = L’中’;用常量字符串给wchar_t数组赋值时,前面要加L。如: wchar_t wstr2[3] = L”中国”。

编码场景:

  • 源码字符集(the source character set):源代码文件是使用何种编码字符集保存的
  • 执行字符集(the execution character set):源代码经过编译、链接后的可执行文件是使用何种编码字符集保存的,程序实际执行时,内存中的字符串编码就是执行字符集
  • 运行环境编码:操作系统(或者当前控制台环境)用于显示文字的编码字符集

乱码的根源:源代码文件(源码字符集)经过编译/链接,生成可执行文件(执行字符集&#x

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值