本文介绍两个由C语言提供的宽字符(wchar_t类型)和多字节字符( 一个字符用一个或者多个字节表示) 转换函数,因此具有通用性(在Windows/Linux系统中都可以使用):
所需头文件:stdlib.h
#include <stdlib.h>
( 1 ) mbstowcs()
功能:
把多字节字符转换成宽字符
原型:
size_t mbstowcs( wchar_t *wcstr, const char *mbstr, size_t count );
参数:
1> wcstr 目标缓存,用来存放转换之后的宽字节字符;当取值为NULL时,返回值为目标缓存所需wchar_t类型的个数
2> mbstr 用来存放待转换的多字节字符串
3> count 用来指定最多转换多少Byte。当wcstr取值为NULL时,该值无用
返回值:
转换成功,且wcstr == NULL时,返回目标缓存所需的大小(wchar_t 类型个数,但不含终结符);
转换成功,且wcstr != NULL时,返回转换的字节数;
转换不成功,返回(size_t) (-1);
使用步骤:
1) 调用mbstowcs()函数,设置参数 wcstr 为NULL(用以获取转换所需的接收缓冲区大小);
2) 给目标缓存区分配足够的内存块,用于存放转换后的wchar_t字符串;
注意:该内存块的大小由首次调用mbstowcs()函数的返回值来决定(该返回值不包含终止符的空间)
3) 再次调用mbstowcs()函数,这次将目标缓存的地址作为 wcstr 参数来传递;
代码示例:
- strcpy(sBuf, "我最棒");
- size_t sSize=strlen(sBuf);
- wchar_t * dBuf=NULL;
- <SPAN style="COLOR: #ff0000">//注意:需要多分配一个空间,以存放终止符</SPAN>
- int dSize=mbstowcs(dBuf, sBuf, 0)+1;
- dBuf=new wchar_t[dSize];
- wmemset(dBuf, 0, dSize);
- int nRet=mbstowcs(dBuf, sBuf, sSize);
- if(nRet<=0)
- {
- printf("转换失败\n");
- }
- else
- {
- printf("转换成功%d字符\n", nRet);
- wprintf(L"%ls\n", dBuf);
- }
strcpy(sBuf, "我最棒");
size_t sSize=strlen(sBuf);
wchar_t * dBuf=NULL;
<span style="color:#ff0000;">//注意:需要多分配一个空间,以存放终止符</span>
int dSize=mbstowcs(dBuf, sBuf, 0)+1;
dBuf=new wchar_t[dSize];
wmemset(dBuf, 0, dSize);
int nRet=mbstowcs(dBuf, sBuf, sSize);
if(nRet<=0)
{
printf("转换失败\n");
}
else
{
printf("转换成功%d字符\n", nRet);
wprintf(L"%ls\n", dBuf);
}
( 2 ) wcstombs()
功能:
把宽字符把转换成多字节字符串
原型:
size_t wcstombs( char *mbstr, const wchar_t *wcstr, size_t count );
参数:
1> wcstr 目标缓存,用来存放转换之后的多字节字符;当取值为NULL时,返回值为目标缓存所需wchar_t类型的个数;
2> mbstr 用来存放待转换的宽字符;
3> count 用来指定接收缓存里能够存储的最大的字节数;
返回值:
转换成功,且mbstr == NULL时,返回目标缓存所需的大小(char 类型个数,但不含终结符);
转换成功,且mbstr != NULL时,返回转换的字节数;
转换不成功,返回(size_t)(-1);
注意:
If wcstombs encounters a wide character it cannot be convert to a multibyte character, it returns –1 cast to type size_t.
使用方法:
与mbstowcs()方法类似
示例代码:
- wchar_t sBuf[20]={0};
- wcscpy(sBuf, L"Hello");
- size_t sSize=wcslen(sBuf);
- char * dBuf=NULL;
- int dSize=wcstombs(dBuf, sBuf, 0)+1;
- printf("需要%d Char\n", dSize);
- dBuf=new char[dSize];
- memset(dBuf, 0, dSize);
- int nRet=wcstombs(dBuf, sBuf, dSize);
- if(nRet<=0)
- {
- printf("转换失败\n");
- }
- else
- {
- printf("转换成功%d字符\n", nRet);
- printf("%s\n", dBuf);
- }
wchar_t sBuf[20]={0};
wcscpy(sBuf, L"Hello");
size_t sSize=wcslen(sBuf);
char * dBuf=NULL;
int dSize=wcstombs(dBuf, sBuf, 0)+1;
printf("需要%d Char\n", dSize);
dBuf=new char[dSize];
memset(dBuf, 0, dSize);
int nRet=wcstombs(dBuf, sBuf, dSize);
if(nRet<=0)
{
printf("转换失败\n");
}
else
{
printf("转换成功%d字符\n", nRet);
printf("%s\n", dBuf);
}
上面的代码在转换英文的时候没有问题,在转换中文时,wcstombs()函数会返回-1
注意:
宽字节,即wchar_t 类型采用Unicode编码方式,在Windows中为utf-16,在Linux中为utf-32
而多字节则可能是其他很多编码方式,如utf-8、GB232....
因此,需要指定多字节编码类型,才能进行正常的转换过程。
设置或获取多字节编码方式用函数:setlocale()
所需头文件:locale.h
#include <locale.h>