宽字符串和多字节字符互转
本文主要侧重宽字符和多字节字符的转换。其实这里面还涉及到字符集的转换,为了大家的理解,我们在此不过多介绍。
一、windows
- 宽字符转换成多字节
#include <iostream>
#include <windows.h>
using namespace std;
int main()
{
wchar_t wideChar[] = L"我是一个宽字符";
// 1. 首先指定接收转换结果的指针
char * multiByte;
// 2. 然后第一次调用函数,获取存储转换结果所需缓冲区的大小
int len = WideCharToMultiByte(CP_ACP, NULL,
wideChar, // 要被转换的宽字符字符串
-1, // 要转换的长度,设为-1表示转换整串
NULL, // 第一次调用,接收缓冲区设置为NULL
NULL, // 接收缓冲区的大小,设为NULL表示让函数返回需要的大小
NULL, NULL);
// 3. 根据返回的结果创建合适大小的缓冲区
multiByte = new char[len];
// 4. 第二次调用函数,进行真正的转换
WideCharToMultiByte(CP_ACP, NULL,
wideChar, // 要被转换的宽字符字符串
-1, // 要转换的长度,设为-1表示转换整串
multiByte, // 第二次调用,设为接收转换结果的缓冲区指针
len, // 设定接收缓冲区大小
NULL, NULL);
// 5. 转换结束,可以输出查看转换结果
cout << multiByte << endl;
delete multiByte;
system("pause");
return 0;
}
输出
我是一个宽字符
请按任意键继续. . .
- 多字节转换成宽字符:
#include <iostream>
#include <windows.h>
using namespace std;
int main()
{
setlocale(LC_ALL, "chs");
char multiByte[] = "我是一个多字节字符串。";
// 1. 首先指定接收转换结果的指针
WCHAR * wideChar;
// 2. 然后第一次调用函数,获取存储转换结果所需缓冲区的大小
int len = MultiByteToWideChar(CP_ACP, NULL,
multiByte, // 要被转换的多字节字符串
-1, // 要转换的长度,设为-1表示转换整串
NULL, // 第一次调用,接收缓冲区设为NULL
0); // 接收缓冲区长度,设为0代表函数返回需要的长度
// 3. 根据返回的结果创建合适大小的缓冲区
wideChar = new WCHAR[len];
// 4. 第二次调用函数,进行真正的转换
MultiByteToWideChar(CP_ACP, NULL,
multiByte, // 要被转换的多字节字符串
-1, // 要转换的长度,设为-1表示转换整串
wideChar, // 第二次调用,设为接收转换结果的缓冲区
len); // 设置接收缓冲区的大小
// 5. 转换结束,可以输出查看转换结果
wcout << wideChar << endl;
delete wideChar;
system("pause");
return 0;
}
输出
我是一个多字节字符串。
二、linux
- iconv.h
- linux下的原型函数
- 不单单可以做宽字符和多字节字符的转换,还可以用做不同字符编码的转换。
这个用的不多,而且c++20提供了相应的函数转换,在此不做过多研究,后面会整理一篇c++ 20提供的字符转换函数。
三、c语言
-
c语言提供了wcstombs、mbstowcs(不安全)
-
(因为不安全,在vs2017中已经编译不过了,让用更加安全的wcstombs_s、mbstowcs_s,想要编译通过,可以在visual中:项目右键 – 属性 – C/C++ – 预处理器 – 预处理器定义,在里面添加 _CRT_SECURE_NO_DEPRECATE 即可)
-
windows和linux都可以使用;
-
存在《四、wchar_t》中备注说的问题:【字符集二】多字节字符vs宽字符
-
wcstombs_s、mbstowcs_s是微软提供的,linux下肯定是无法使用的。
- wcstombs
size_t wcstombs (char* dest, const wchar_t* src, size_t max);
Convert wide-character string to multibyte string
#include <stdio.h>
#include <stdlib.h>
#include <iostream>
#define BUFFER_SIZE 50
int main()
{
setlocale(LC_ALL, "chs");
size_t ret;
char mb[50];
wchar_t wc[] = L"我是一个宽字符";
//wchar_t* wcStr = wc;
/* 转换宽字符字符串 */
ret = wcstombs(mb, wc, BUFFER_SIZE);
printf("要转换的字符数 = %u\n", ret);
printf("多字节字符 = %s\n\n", mb);
return(0);
}
输出
要转换的字符数 = 14
多字节字符 = 我是一个宽字符
- mbstowcs
size_t mbstowcs (wchar_t* dest, const char* src, size_t max);
Convert multibyte string to wide-character string
#include <stdio.h>
#include <stdlib.h>
#include <iostream>
#define BUFFER_SIZE 50
int main()
{
setlocale(LC_ALL, "chs");
char mbyte[50];
wchar_t * wbyte =NULL;
strcpy(mbyte, "我是一个多字节字符");
size_t mlen = strlen(mbyte);
int dSize = mbstowcs(wbyte, mbyte, 0) + 1;
wbyte = new wchar_t[dSize];
wmemset(wbyte, 0, dSize);
int len = mbstowcs(wbyte, mbyte, mlen);//mlen长度比所需要的长,不会失败。
return(0);
}
参见:
1、wcstombs
2、mbstowcs()/wcstombs()
四、宽字符和多字节字符的本质
五、其他
1.宽字符wchar_t和窄字符char区别和相互转换
2.基于 C++ Boost locale 库,将 utf8,utf16,utf32 字符集互相转换
3.boost库学习随记五 Boost.Locale 之字符转换 gbk utf8 big5 string wstring等
4.windows API实现中文中字符串与GBK、Unicode、UTF-8三种编码互转
5.boost::locale::conv:: 字符编码转换
6.对C++ Local的经典分析