综述
最近一直疑惑于C++中对于字符串存储相关的问题,经过深入研究,现做如下探讨,有错误之处,请留言。
char wchar_t char16_t char32_t 区别
- 首先这几种字符类型的首要区别就是其占用存储空间的大小不同。char 有一个字节表示,wchar_t 宽体字符,由两个字符表示。char16_t,char32_t C++ 11 新增的字符类型,char16_t 占两个字节,char32_t 占四个字节。
- 字符数组初始化方式不同,请留意如下代码的字符串前缀。
#include <iostream>
#include <string>
using namespace std;
int main()
{
char nameChar[] = "This is a char array";
wchar_t nameWchar[] = L"This is a wchar array";
char16_t nameChar16[] = u"This is a char16 array";
char32_t nameChar32[] = U"This is a char32 array";
cin.get();
}
中文编码问题
- 我们首先研究中文字符常量存储编码同代码文件编码格式的关联关系。
- 当代码文件的编码方式为Unicode时,如下代码:
#include <iostream>
using namespace std;
int main()
{
wchar_t name[] = L"我爱学习";
for (size_t i = 0; i < sizeof(name); i++)
{
printf("%X",name[i]);
cout << " ";
}
cout << endl;
cin.get();
}
输出结果为:
6211 7231 5B66 4E60 0 CCCC CCCC CCCC CCCC CCCC
如上图可以看出wchar 是按Unicode编码方式进行存储的。
- 我们将上述代码修改一下,用 char 类型替代 wchar.
#include <iostream>
#include <cstdint>
using namespace std;
int main()
{
char name[] = "我爱学习";
for (size_t i = 0; i < sizeof(name); i++)
{
printf("%X", uint8_t(name[i]));
cout << " ";
}
cout << endl;
cout << name << endl;
cin.get();
}
输出结果:
CE D2 B0 AE D1 A7 CF B0 0
我爱学习
可见,存储的编码方式为本机的默认编码方式,中文操作系统为GBK。通过 cout 可以正常输出,输出窗口的默认解码方式同系统默认相同。
我们用如下代码进行输出:
#include <iostream>
using namespace std;
int main()
{
wchar_t name[] = L"我爱学习";
for (size_t i = 0; i < sizeof(name); i++)
{
printf("%X", name[i]);
cout << " ";
}
cout << endl;
wcout << name << endl;
cin.get();
}
输出结果:
我们可以看到wcout 并不能很好的显示中文,这与wchar_t 存储为unicode 编码,但是控制台要求中文GBK编码,unicode 编码字符再以GBK方式显示时出现错误。
2. 代码文件的存储编码方式是否会影响中文字符串常量。
我们以如下代码为例:
#include <iostream>
using namespace std;
int main()
{
char nameChar[] = "我爱学习";
for (size_t i = 0; i < sizeof(nameChar); i++)
{
printf("%X", uint8_t(nameChar[i]));
cout << " ";
}
cout << endl;
cout << nameChar << endl;
wchar_t name[] = L"我爱学习";
for (size_t i = 0; i < sizeof(name); i++)
{
printf("%X", name[i]);
cout << " ";
}
cout << endl;
cin.get();
}
Unicode 编码存储输出结果:
CE D2 B0 AE D1 A7 CF B0 0
我爱学习
CE D2 B0 AE D1 A7 CF B0 0
我爱学习
6211 7231 5B66 4E60 0 CCCC CCCC CCCC CCCC CCCC
我们以GB2312的方式进行存储输出结果
CE D2 B0 AE D1 A7 CF B0 0
我爱学习
6211 7231 5B66 4E60 0 CCCC CCCC CCCC CCCC CCCC
可见以上的输出结果相同,据此我们可以得出结论,只要显示不会输出乱码,编译后的存储结果是相同的,与代码文件的存储编码方式无关。
- 利用 wcout 正常输出中文
-
将Unicode 编码转为GBK编码
-
告知wcout 输出编码为中文
#include <iostream>
using namespace std;
int main()
{
wchar_t name[] = L"我爱学习";
for (size_t i = 0; i < sizeof(name); i++)
{
printf("%X", name[i]);
cout << " ";
}
cout << endl;
wcout.imbue(std::locale("chs"));
wcout << name;
cout << endl;
cin.get();
}
输出结果:
6211 7231 5B66 4E60 0 CCCC CCCC CCCC CCCC CCCC
我爱学习