总结
ASCII规定了127个字符编码,而一个字节最多能表示256种。所以可以根据第一位来判断是不是ASCII编码,如果不是说明这是一个多字节编码。
char 与 std::string,英文字符在 UTF-8 中使用一个字节存储,中文字符使用三个字节存储。
C++ 11 开始支持 UTF-8、UTF-16 和 UTF-32 字符串常量的声明,分别使用 u8""、u"" 和 U"" 作为声明的标志。
wchar_t 与 std::wstring解决多字符编码,占两个字节,且需要使用适配的 std::wcout 和 std::wofstream。windows中的编译器一般将wchar_t定为2个字节宽,而linux中的编译器一般定义wchar_t为4字节宽。用常量字符给wchar_t变量赋值时,前面要加L。如: wchar_t wch2 = L’中’;用常量字符串给wchar_t数组赋值时,前面要加L。如: wchar_t wstr2[3] = L”中国”。
编码场景:
- 源码字符集(the source character set):源代码文件是使用何种编码字符集保存的
- 执行字符集(the execution character set):源代码经过编译、链接后的可执行文件是使用何种编码字符集保存的,程序实际执行时,内存中的字符串编码就是执行字符集
- 运行环境编码:操作系统(或者当前控制台环境)用于显示文字的编码字符集
乱码的根源:源代码文件(源码字符集)经过编译/链接,生成可执行文件(执行字符集&#x