【字符集六】宽字符串和多字节字符互转


本文主要侧重宽字符和多字节字符的转换。其实这里面还涉及到字符集的转换,为了大家的理解,我们在此不过多介绍。

一、windows

  • 宽字符转换成多字节
#include <iostream>
#include <windows.h>
using namespace std;
int main()
{
	wchar_t wideChar[] = L"我是一个宽字符";
	// 1. 首先指定接收转换结果的指针
	char * multiByte;
	// 2. 然后第一次调用函数,获取存储转换结果所需缓冲区的大小
	int len = WideCharToMultiByte(CP_ACP, NULL,
		wideChar,	// 要被转换的宽字符字符串
		-1,			// 要转换的长度,设为-1表示转换整串
		NULL,		// 第一次调用,接收缓冲区设置为NULL
		NULL,		// 接收缓冲区的大小,设为NULL表示让函数返回需要的大小
		NULL, NULL);
	// 3. 根据返回的结果创建合适大小的缓冲区
	multiByte = new char[len];

	// 4. 第二次调用函数,进行真正的转换
	WideCharToMultiByte(CP_ACP, NULL,
		wideChar,	// 要被转换的宽字符字符串
		-1,			// 要转换的长度,设为-1表示转换整串
		multiByte,	// 第二次调用,设为接收转换结果的缓冲区指针
		len,		// 设定接收缓冲区大小
		NULL, NULL);
	// 5. 转换结束,可以输出查看转换结果
	cout << multiByte << endl;
	delete multiByte;

	system("pause");
	return 0;
}

输出

我是一个宽字符
请按任意键继续. . .

  • 多字节转换成宽字符:
#include <iostream>
#include <windows.h>
using namespace std;
int main()
{
	setlocale(LC_ALL, "chs");
	char multiByte[] = "我是一个多字节字符串。";
	// 1. 首先指定接收转换结果的指针
	WCHAR * wideChar;
	// 2. 然后第一次调用函数,获取存储转换结果所需缓冲区的大小
	int len = MultiByteToWideChar(CP_ACP, NULL,
		multiByte,		// 要被转换的多字节字符串
		-1,				// 要转换的长度,设为-1表示转换整串
		NULL,			// 第一次调用,接收缓冲区设为NULL
		0);				// 接收缓冲区长度,设为0代表函数返回需要的长度
	// 3. 根据返回的结果创建合适大小的缓冲区
	wideChar = new WCHAR[len];
	// 4. 第二次调用函数,进行真正的转换
	MultiByteToWideChar(CP_ACP, NULL,
		multiByte,		// 要被转换的多字节字符串
		-1,				// 要转换的长度,设为-1表示转换整串
		wideChar,		// 第二次调用,设为接收转换结果的缓冲区
		len);			// 设置接收缓冲区的大小
	// 5. 转换结束,可以输出查看转换结果
	wcout << wideChar << endl;
	delete wideChar;

	system("pause");
	return 0;
}

输出

我是一个多字节字符串。

参见:多字节和宽字符之间的转换方法

二、linux

  • iconv.h
  • linux下的原型函数
  • 不单单可以做宽字符和多字节字符的转换,还可以用做不同字符编码的转换。

这个用的不多,而且c++20提供了相应的函数转换,在此不做过多研究,后面会整理一篇c++ 20提供的字符转换函数。

参见:linux 宽字符与多字节字符之间的转换

三、c语言

  • c语言提供了wcstombs、mbstowcs(不安全)

  • (因为不安全,在vs2017中已经编译不过了,让用更加安全的wcstombs_s、mbstowcs_s,想要编译通过,可以在visual中:项目右键 – 属性 – C/C++ – 预处理器 – 预处理器定义,在里面添加 _CRT_SECURE_NO_DEPRECATE 即可)

  • windows和linux都可以使用;

  • 存在《四、wchar_t》中备注说的问题:【字符集二】多字节字符vs宽字符

  • wcstombs_s、mbstowcs_s是微软提供的,linux下肯定是无法使用的。

    • wcstombs

size_t wcstombs (char* dest, const wchar_t* src, size_t max);
Convert wide-character string to multibyte string

#include <stdio.h>
#include <stdlib.h>
#include <iostream>
#define BUFFER_SIZE 50

int main()
{
	setlocale(LC_ALL, "chs");
	size_t ret;
	char mb[50];
	wchar_t wc[] = L"我是一个宽字符";
	//wchar_t* wcStr = wc;

	/* 转换宽字符字符串 */
	ret = wcstombs(mb, wc, BUFFER_SIZE);

	printf("要转换的字符数 = %u\n", ret);
	printf("多字节字符 = %s\n\n", mb);

	return(0);
}

输出

要转换的字符数 = 14
多字节字符 = 我是一个宽字符

  • mbstowcs

size_t mbstowcs (wchar_t* dest, const char* src, size_t max);
Convert multibyte string to wide-character string

#include <stdio.h>
#include <stdlib.h>
#include <iostream>
#define BUFFER_SIZE 50

int main()
{
	setlocale(LC_ALL, "chs");
	
	char mbyte[50];
	wchar_t * wbyte =NULL;

	strcpy(mbyte, "我是一个多字节字符");
	size_t mlen = strlen(mbyte);

	int dSize = mbstowcs(wbyte, mbyte, 0) + 1;

	wbyte = new wchar_t[dSize];
	wmemset(wbyte, 0, dSize);

	int len = mbstowcs(wbyte, mbyte, mlen);//mlen长度比所需要的长,不会失败。

	return(0);
}

参见:
1、wcstombs
2、mbstowcs()/wcstombs()

四、宽字符和多字节字符的本质

见:汉字我的宽字符码和多字节码分别是多少

五、其他

1.宽字符wchar_t和窄字符char区别和相互转换
2.基于 C++ Boost locale 库,将 utf8,utf16,utf32 字符集互相转换
3.boost库学习随记五 Boost.Locale 之字符转换 gbk utf8 big5 string wstring等
4.windows API实现中文中字符串与GBK、Unicode、UTF-8三种编码互转
5.boost::locale::conv:: 字符编码转换
6.对C++ Local的经典分析

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

郑同学的笔记

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值