C++中的中文编码乱码的根源及解决方案

最新推荐文章于 2024-08-15 19:06:46 发布

「已注销」

最新推荐文章于 2024-08-15 19:06:46 发布

阅读量6.5k

点赞数

文章标签：乱码字符串 c++

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/LU_ZHAO/article/details/104981662

版权

本文探讨了C++中乱码产生的原因，涉及源码字符集、执行字符集和运行环境编码的匹配问题。C++11开始支持UTF-8、UTF-16和UTF-32字符串常量。乱码解决方案包括确保编译器正确识别源码字符集，以及确保运行环境编码与执行字符集一致。通过设置locale和调整编译选项，如-fexec-charset和-fwide-exec-charset，可以避免乱码问题。

摘要由CSDN通过智能技术生成

总结

ASCII规定了127个字符编码，而一个字节最多能表示256种。所以可以根据第一位来判断是不是ASCII编码，如果不是说明这是一个多字节编码。

char 与 std::string，英文字符在 UTF-8 中使用一个字节存储，中文字符使用三个字节存储。

C++ 11 开始支持 UTF-8、UTF-16 和 UTF-32 字符串常量的声明，分别使用 u8""、u"" 和 U"" 作为声明的标志。

wchar_t 与 std::wstring解决多字符编码，占两个字节，且需要使用适配的 std::wcout 和 std::wofstream。windows中的编译器一般将wchar_t定为2个字节宽，而linux中的编译器一般定义wchar_t为4字节宽。用常量字符给wchar_t变量赋值时，前面要加L。如： wchar_t wch2 = L’中’;用常量字符串给wchar_t数组赋值时,前面要加L。如： wchar_t wstr2[3] = L”中国”。

编码场景：

源码字符集（the source character set）：源代码文件是使用何种编码字符集保存的
执行字符集（the execution character set）：源代码经过编译、链接后的可执行文件是使用何种编码字符集保存的，程序实际执行时，内存中的字符串编码就是执行字符集
运行环境编码：操作系统（或者当前控制台环境）用于显示文字的编码字符集

乱码的根源：源代码文件（源码字符集）经过编译/链接，生成可执行文件（执行字符集&#x

最低0.47元/天解锁文章

「已注销」

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。