Windows函数 MultiByteToWideChar（）和WideCharToMultiByte（）函数参数详解

最新推荐文章于 2021-12-28 10:26:26 发布

mumuxi_c

最新推荐文章于 2021-12-28 10:26:26 发布

阅读量643

点赞数 2

分类专栏： Tesseract—OCR 文章标签： MultiByteToWideChar WideCharToMultiByte tesseract-ocr 文字乱码

本文链接：https://blog.csdn.net/ganbelieve/article/details/89137750

版权

Tesseract—OCR 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Windows函数 MultiByteToWideChar（）和WideCharToMultiByte（）函数参数详解

由于最近项目需要使用tesseract—ocr进行文字识别，但识别出来的文字为乱码，经过两天的解决找到了方法。给自己做个记录（备忘录）；

先把 **MultiByteToWideChar（）和WideCharToMultiByte（）**这两个函数的详解列出来吧：

注：由于这两个函数是windows下的API，故使用两个函数需要加上头文件#include<widows.h>

（1）MultiByteToWideChar 函数
函数功能：该函数映射一个字符串到一个宽字符（unicode）的字符串。
函数原型：

int MultiByteToWideChar(
UINT CodePage,
DWORD dwFlags,
LPCSTR lpMultiByteStr,
int cchMultiByte,
LPWSTR lpWideCharStr,
int cchWideChar
);

CodePage：指定执行转换的字符集，这个参数可以为系统已安装或有效的任何字符集所给定的值。你也可以指定其为下面的任意一值：

CP_ACP ANSI字符集
CP_UTF7 使用UTF-7转换
CP_UTF8 使用UTF-8转换
CP_MACCP Macintosh代码页
CP_OEMCP OEM代码页
CP_SYMBOL 符号字符集（42）
CP_THREAD_ACP 当前线程ANSI代码页

dwFlags：一组位标记用以指出是否未转换成预作或宽字符（若组合形式存在），是否使用象形文字替代控制字符，以及如何处理无效字符。你可以指定下面是标记常量的组合，含义如下：

MB_PRECOMPOSED：通常使用预作字符——就是说，由一个基本字符和一个非空字符组成的字符只有一个单一的字符值。这是缺省的转换选择。不能与MB_COMPOSITE值一起使用。
MB_COMPOSITE：通常使用组合字符——就是说，由一个基本字符和一个非空字符组成的字符分别有不同的字符值。不能与MB_PRECOMPOSED值一起使用。
MB_ERR_INVALID_CHARS：如果函数遇到无效的输入字符，它将运行失败，且GetLastErro返回ERROR_NO_UNICODE_TRANSLATION值。
MB_USEGLYPHCHARS：使用象形文字替代控制字符。
组合字符由一个基础字符和一个非空字符构成，每一个都有不同的字符值。每个预作字符都有单一的字符值给基础/非空字符的组成。在字符è中，e就是基础字符，而重音符标记就是非空字符。
函数的缺省动作是转换成预作的形式。如果预作的形式不存在，函数将尝试转换成组合形式。
标记MB_PRECOMPOSED和MB_COMPOSITE是互斥的，而标记MB_USEGLYPHCHARS和MB_ERR_INVALID_CHARS则不管其它标记如何都可以设置。

  一般不使用标记位，取值为零

lpMultiByteStr：指向将被转换字符串的字符。
cchMultiByte：指定由参数lpMultiByteStr指向的字符串中字节的个数。lpMultiByteStr指定的字符串以空字符终止，可以设置为-1，此参数设置为0函数将失败。
lpWideCharStr：指向接收被转换字符串的缓冲区。
cchWideChar：指定由参数lpWideCharStr指向的缓冲区的宽字符个数。若此值为零，函数返回缓冲区所必需的宽字符数，在这种情况下，lpWideCharStr中的缓冲区不被使用。

（2）WideCharToMultiByte 函数
函数功能：该函数可以映射一个unicode字符串到一个多字节字符串。
函数原型：

int WideCharToMultiByte(
　　UINT CodePage,
　　DWORD dwFlags,
　　LPCWSTR lpWideCharStr,
　　int cchWideChar,
　　LPSTR lpMultiByteStr,
　　int cchMultiByte,
　　LPCSTR lpDefaultChar,
　　LPBOOL pfUsedDefaultChar
　　);

函数与MultiByteToWideChar()函数中的参数类似，但是多了两个参数：

lpDefaultChar和pfUsedDefaultChar：只有当WideCharToMultiByte函数遇到一个宽字节字符，而该字符在uCodePage参数标识的代码页中并没有它的表示法时，WideCharToMultiByte函数才使用这两个参数。

（通常都取值为NULL）

如果宽字节字符不能被转换，该函数便使用lpDefaultChar参数指向的字符。如果该参数是NULL（这是大多数情况下的参数值），那么该函数使用系统的默认字符。该默认字符通常是个问号。这对于文件名来说是危险的，因为问号是个通配符。
pfUsedDefaultChar参数指向一个布尔变量，如果Unicode字符串中至少有一个字符不能转换成等价多字节字符，那么函数就将该变量置为TRUE。如果所有字符均被成功地转换，那么该函数就将该变量置为FALSE。当函数返回以便检查宽字节字符串是否被成功地转换后，可以测试该变量。

返回值：
如果函数运行成功，并且cchMultiByte不为零，返回值是由 lpMultiByteStr指向的缓冲区中写入的字节数；
如果函数运行成功，并且cchMultiByte为零，返回值是接收到待转换字符串的缓冲区所必需的字节数。（此种情况用来获取转换所需Char的个数）
如果函数运行失败，返回值为零。
若想获得更多错误信息，请调用GetLastError函数。它可以返回下面所列错误代码：

ERROR_INSUFFICIENT_BJFFER；
ERROR_INVALID_FLAGS；
ERROR_INVALID_PARAMETER；
ERROR_NO_UNICODE_TRANSLATION。

最后附上文字识别乱码解决部分代码

//解决中文乱码问题的代码部分
char* U2G(const char* utf8)
{
	int len = MultiByteToWideChar(CP_UTF8, 0, utf8, -1, NULL, 0);
	wchar_t* wstr = new wchar_t[len + 1];
	memset(wstr, 0, len + 1);
	MultiByteToWideChar(CP_UTF8, 0, utf8, -1, wstr, len);
	len = WideCharToMultiByte(CP_ACP, 0, wstr, -1, NULL, 0, NULL, NULL);
	char* str = new char[len + 1];
	memset(str, 0, len + 1);
	WideCharToMultiByte(CP_ACP, 0, wstr, -1, str, len, NULL, NULL);
	if (wstr) delete[] wstr;
	return str;
}

参考博客：
UTF—>Unicode—>Ansi 这个最终返回的中文字符才是正确的，否则中文是乱码
参考链接：
MultiByteToWideChar（）函数
 WideCharToMultiByte（）函数