Windows函数 MultiByteToWideChar()和WideCharToMultiByte()函数参数详解

Windows函数 MultiByteToWideChar()和WideCharToMultiByte()函数参数详解

由于最近项目需要使用tesseract—ocr进行文字识别,但识别出来的文字为乱码,经过两天的解决找到了方法。给自己做个记录(备忘录);

先把 **MultiByteToWideChar()WideCharToMultiByte()**这两个函数的详解列出来吧:

注:由于这两个函数是windows下的API,故使用两个函数需要加上头文件#include<widows.h>

(1)MultiByteToWideChar 函数
函数功能:该函数映射一个字符串到一个宽字符(unicode)的字符串。
函数原型:

int MultiByteToWideChar(
UINT CodePage,
DWORD dwFlags,
LPCSTR lpMultiByteStr,
int cchMultiByte,
LPWSTR lpWideCharStr,
int cchWideChar
);
  • CodePage:指定执行转换的字符集,这个参数可以为系统已安装或有效的任何字符集所给定的值。你也可以指定其为下面的任意一值:

CP_ACP ANSI字符集
CP_UTF7 使用UTF-7转换
CP_UTF8 使用UTF-8转换
CP_MACCP Macintosh代码页
CP_OEMCP OEM代码页
CP_SYMBOL 符号字符集(42)
CP_THREAD_ACP 当前线程ANSI代码页

  • dwFlags:一组位标记用以指出是否未转换成预作或宽字符(若组合形式存在),是否使用象形文字替代控制字符,以及如何处理无效字符。你可以指定下面是标记常量的组合,含义如下:

MB_PRECOMPOSED:通常使用预作字符——就是说,由一个基本字符和一个非空字符组成的字符只有一个单一的字符值。这是缺省的转换选择。不能与MB_COMPOSITE值一起使用。
MB_COMPOSITE:通常使用组合字符——就是说,由一个基本字符和一个非空字符组成的字符分别有不同的字符值。不能与MB_PRECOMPOSED值一起使用。
MB_ERR_INVALID_CHARS:如果函数遇到无效的输入字符,它将运行失败,且GetLastErro返回ERROR_NO_UNICODE_TRANSLATION值。
MB_USEGLYPHCHARS:使用象形文字替代控制字符。
组合字符由一个基础字符和一个非空字符构成,每一个都有不同的字符值。每个预作字符都有单一的字符值给基础/非空字符的组成。在字符è中,e就是基础字符,而重音符标记就是非空字符。
函数的缺省动作是转换成预作的形式。如果预作的形式不存在,函数将尝试转换成组合形式。
标记MB_PRECOMPOSED和MB_COMPOSITE是互斥的,而标记MB_USEGLYPHCHARS和MB_ERR_INVALID_CHARS则不管其它标记如何都可以设置。

  一般不使用标记位,取值为零
  • lpMultiByteStr:指向将被转换字符串的字符。
  • cchMultiByte:指定由参数lpMultiByteStr指向的字符串中字节的个数。lpMultiByteStr指定的字符串以空字符终止,可以设置为-1,此参数设置为0函数将失败。
  • lpWideCharStr:指向接收被转换字符串的缓冲区。
  • cchWideChar:指定由参数lpWideCharStr指向的缓冲区的宽字符个数。若此值为零,函数返回缓冲区所必需的宽字符数,在这种情况下,lpWideCharStr中的缓冲区不被使用。

(2)WideCharToMultiByte 函数
函数功能:该函数可以映射一个unicode字符串到一个多字节字符串。
函数原型:

int WideCharToMultiByte(
  UINT CodePage,
  DWORD dwFlags,
  LPCWSTR lpWideCharStr,
  int cchWideChar,
  LPSTR lpMultiByteStr,
  int cchMultiByte,
  LPCSTR lpDefaultChar,
  LPBOOL pfUsedDefaultChar
  );

函数与MultiByteToWideChar()函数中的参数类似,但是多了两个参数:

  • lpDefaultChar和pfUsedDefaultChar:只有当WideCharToMultiByte函数遇到一个宽字节字符,而该字符在uCodePage参数标识的代码页中并没有它的表示法时,WideCharToMultiByte函数才使用这两个参数。

(通常都取值为NULL)

  1. 如果宽字节字符不能被转换,该函数便使用lpDefaultChar参数指向的字符。如果该参数是NULL(这是大多数情况下的参数值),那么该函数使用系统的默认字符。该默认字符通常是个问号。这对于文件名来说是危险的,因为问号是个通配符。

  2. pfUsedDefaultChar参数指向一个布尔变量,如果Unicode字符串中至少有一个字符不能转换成等价多字节字符,那么函数就将该变量置为TRUE。如果所有字符均被成功地转换,那么该函数就将该变量置为FALSE。当函数返回以便检查宽字节字符串是否被成功地转换后,可以测试该变量。

返回值:
如果函数运行成功,并且cchMultiByte不为零,返回值是由 lpMultiByteStr指向的缓冲区中写入的字节数;
如果函数运行成功,并且cchMultiByte为零,返回值是接收到待转换字符串的缓冲区所必需的字节数。(此种情况用来获取转换所需Char的个数)
如果函数运行失败,返回值为零。
若想获得更多错误信息,请调用GetLastError函数。它可以返回下面所列错误代码:

ERROR_INSUFFICIENT_BJFFER;
ERROR_INVALID_FLAGS;
ERROR_INVALID_PARAMETER;
ERROR_NO_UNICODE_TRANSLATION。

最后附上文字识别乱码解决部分代码

//解决中文乱码问题的代码部分
char* U2G(const char* utf8)
{
	int len = MultiByteToWideChar(CP_UTF8, 0, utf8, -1, NULL, 0);
	wchar_t* wstr = new wchar_t[len + 1];
	memset(wstr, 0, len + 1);
	MultiByteToWideChar(CP_UTF8, 0, utf8, -1, wstr, len);
	len = WideCharToMultiByte(CP_ACP, 0, wstr, -1, NULL, 0, NULL, NULL);
	char* str = new char[len + 1];
	memset(str, 0, len + 1);
	WideCharToMultiByte(CP_ACP, 0, wstr, -1, str, len, NULL, NULL);
	if (wstr) delete[] wstr;
	return str;
}

参考博客:
UTF—>Unicode—>Ansi 这个最终返回的中文字符才是正确的,否则中文是乱码
参考链接:
MultiByteToWideChar()函数
WideCharToMultiByte()函数

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值