C++ 中char wchar wchar_t char16_t char32_t 以及中文编码的问题

最新推荐文章于 2024-07-13 17:18:59 发布

楠木大哥

最新推荐文章于 2024-07-13 17:18:59 发布

阅读量2.1k

点赞数 5

分类专栏： C++ 文章标签：乱码

本文链接：https://blog.csdn.net/nanmudage/article/details/106597032

版权

C++ 专栏收录该内容

8 篇文章 1 订阅

订阅专栏

综述

最近一直疑惑于C++中对于字符串存储相关的问题，经过深入研究，现做如下探讨，有错误之处，请留言。

char wchar_t char16_t char32_t 区别

首先这几种字符类型的首要区别就是其占用存储空间的大小不同。char 有一个字节表示，wchar_t 宽体字符，由两个字符表示。char16_t，char32_t C++ 11 新增的字符类型，char16_t 占两个字节，char32_t 占四个字节。
字符数组初始化方式不同,请留意如下代码的字符串前缀。

#include <iostream>
#include <string>

using namespace std;

int main()
{
	char nameChar[] = "This is a char array";
	wchar_t nameWchar[] = L"This is a wchar array";
	char16_t nameChar16[] = u"This is a char16 array";
	char32_t nameChar32[] = U"This is a char32 array";
	cin.get();
}

中文编码问题

我们首先研究中文字符常量存储编码同代码文件编码格式的关联关系。

当代码文件的编码方式为Unicode时，如下代码：


#include <iostream>

using namespace std;

int main()
{
	wchar_t name[] = L"我爱学习";
	for (size_t i = 0; i < sizeof(name); i++)
	{
		printf("%X",name[i]);
		cout  << " ";
	}
	cout << endl;
	cin.get();
}

输出结果为：

6211 7231 5B66 4E60 0 CCCC CCCC CCCC CCCC CCCC

中文对应编码
如上图可以看出wchar 是按Unicode编码方式进行存储的。

我们将上述代码修改一下，用 char 类型替代 wchar.


#include <iostream>
#include <cstdint>

using namespace std;

int main()
{
	char name[] = "我爱学习";
	
	
	for (size_t i = 0; i < sizeof(name); i++)
	{
		printf("%X", uint8_t(name[i]));
		cout  << " ";
	}
	cout << endl;
	cout << name << endl;
	cin.get();
}

输出结果：

CE D2 B0 AE D1 A7 CF B0 0
我爱学习

可见，存储的编码方式为本机的默认编码方式，中文操作系统为GBK。通过 cout 可以正常输出，输出窗口的默认解码方式同系统默认相同。

我们用如下代码进行输出：

#include <iostream>

using namespace std;

int main()
{
	wchar_t name[] = L"我爱学习";
	for (size_t i = 0; i < sizeof(name); i++)
	{
		printf("%X", name[i]);
		cout << " ";
	}
	cout << endl;
	wcout << name << endl;
	cin.get();
}

输出结果：

我们可以看到wcout 并不能很好的显示中文，这与wchar_t 存储为unicode 编码，但是控制台要求中文GBK编码，unicode 编码字符再以GBK方式显示时出现错误。
2. 代码文件的存储编码方式是否会影响中文字符串常量。
我们以如下代码为例：

#include <iostream>

using namespace std;

int main()
{
	char nameChar[] = "我爱学习";
	for (size_t i = 0; i < sizeof(nameChar); i++)
	{
		printf("%X", uint8_t(nameChar[i]));
		cout << " ";
	}
	cout << endl;
	cout << nameChar << endl;
	wchar_t name[] = L"我爱学习";
	for (size_t i = 0; i < sizeof(name); i++)
	{
		printf("%X", name[i]);
		cout << " ";
	}
	cout << endl;
	cin.get();
}

Unicode 编码存储输出结果：

CE D2 B0 AE D1 A7 CF B0 0
我爱学习
CE D2 B0 AE D1 A7 CF B0 0
我爱学习
6211 7231 5B66 4E60 0 CCCC CCCC CCCC CCCC CCCC

我们以GB2312的方式进行存储输出结果

CE D2 B0 AE D1 A7 CF B0 0
我爱学习
6211 7231 5B66 4E60 0 CCCC CCCC CCCC CCCC CCCC

可见以上的输出结果相同，据此我们可以得出结论，只要显示不会输出乱码，编译后的存储结果是相同的，与代码文件的存储编码方式无关。

利用 wcout 正常输出中文

将Unicode 编码转为GBK编码
告知wcout 输出编码为中文

#include <iostream>

using namespace std;

int main()
{
	wchar_t name[] = L"我爱学习";
	for (size_t i = 0; i < sizeof(name); i++)
	{
		printf("%X", name[i]);
		cout << " ";
	}
	cout << endl;
	wcout.imbue(std::locale("chs"));
	wcout << name;
	cout << endl;
	cin.get();
}

输出结果：

6211 7231 5B66 4E60 0 CCCC CCCC CCCC CCCC CCCC
我爱学习

楠木大哥

关注

5
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录