UNICODE和ANSI字符串的转换

继上集故事《多字符集(ANSI)和UNICODE及字符串处理方式准则 》,我们现在有一些特殊需求:

有时候我们的字符串是多字符型,我们却需要使用宽字符型;有的时候却恰恰相反。

Windows为我们提供了这样的函数来处理这个问题:

1.MultiByteToWideChar

函数功能: 该函数映射一个字符串到一个宽字符 (unicode)的字符串。由该函数映射的字符串没必要是多字节字符组。

函数原型: int MultiByteToWideChar(UINT CodePage, DWORD dwFlags, LPCSTR lpMultiByteStr, int cchMultiByte,

LPWSTR lpWideCharStr, int cchWideChar);

参数:

CodePage:指定执行转换的代码页,这个参数可以为系统已安装或有效的任何代码页所给定的值。你也 可以指定其为下面的任意一值:

CP_ACP:ANSI代码页;CP_MACCP:Macintosh代码 页;CP_OEMCP:OEM代码页;

CP_SYMBOL:符号代码页(42);CP_THREAD_ACP:当前线程ANSI代码 页;

CP_UTF7:使用UTF-7转换;CP_UTF8:使用UTF-8转换。

dwFlags:一组位标记用以指出是否未转换成预作或宽字符(若组合形式存在),是否使用象 形文字替代控制字符,以及如何处理无效字符。你可以指定下面是标记常量的组合,含义如下:

MB_PRECOMPOSED:通常使用预作字符——就是说,由一个基本字符和一个非空字符组 成的字符只有一个单一的字符值。这是缺省的转换选择。不能与

MB_COMPOSITE值一起使用。

MB_COMPOSITE:通常使用组合字符——就是说,由一个基本字符和一个非空字符组成的 字符分别有不同的字符值。不能与MB_PRECOMPOSED值一起使用。

MB_ERR_INVALID_CHARS:如果函数遇到无效的输入字符,它将运行失败,且 GetLastErro返回ERROR_NO_UNICODE_TRANSLATION值。

MB_USEGLYPHCHARS:使用象形文字替代控制字符。

组合字符由一个基础字符和一个非空字符构成,每一个都有不同的字符值。每个预作字符都有单一的 字符值给基础/非空字符的组成。在字符è中,e就是基础字符,而重音符标记就是非空字符。

函数的缺省动作是转换成预作的形式。如果预作的形式不存在,函数将尝试转换成组合形式。

标记MB_PRECOMPOSED和MB_COMPOSITE是互斥的,而标记 MB_USEGLYPHCHARS和MB_ERR_INVALID_CHARS则不管其它标记如何都可以设置。

lpMultiByteStr:指向将被转换字符串的字符。

cchMultiByte:指定由参数lpMultiByteStr指向的字符串中字节的个 数。如果这个值为-1,字符串将被设定为以NULL为结束符的字符串,并且自动计算长度。

lpWideCharStr:指向接收被转换字符串的缓冲区。

cchWideChar:指定由参数lpWideCharStr指向的缓冲区的字节个数。若此 值为零,函数返回缓冲区所必需的宽字符数,在这种情况下,lpWideCharStr中的缓冲区不被使用。

返回值

如果函数运行成功,并且cchWideChar不为零,返回值是由lpWideCharStr指向的缓 冲区中写入的宽字符数;如果函数运行成功,并且cchMultiByte为零,返回值是接收到待转换字符串的缓冲区所需求的宽字符数大小。如果函数运行失 败,返回值为零。若想获得更多错误信息,请调用GetLastError函数。它可以返回下面所列错误代码:

ERROR_INSUFFICIENT_BUFFER;ERROR_INVALID_FLAGS;

ERROR_INVALID_PARAMETER;ERROR_NO_UNICODE_TRANSLATION。

注意

指针lpMultiByteStr和lpWideCharStr必须不一样。如果一样,函数将失 败,GetLastError将返回ERROR_INVALID_PARAMETER的值。

如果MB_ERR_INVALID_CHARS被设置并且在资源字符串中遇到无效的字符时,函 数将失败。如果MB_ERR_INVALID_CHARS不被设置,或是DBCS串中发现了头字节而没有有效的尾字节,无效字符将转换为缺省字符,但不是 资源字符串中的缺省字符。当无效字符被发现,且MB_ERR_INVALID_CHARS值被设置,函数返回零,GetLastErro显示 ERROR_NO_UNICODE_TRANSLATION的出错信息。

2.WideCharToMultiByte

函数功能: 该函数映射一个unicode字符串到一个多字节字符串。

函数原型: int WideCharToMultiByte(UINT CodePage, DWORD dwFlags, LPWSTR lpWideCharStr, int cchWideChar, LPCSTR lpMultiByteStr, int cchMultiByte, LPCSTR lpDefaultChar, PBOOL pfUsedDefaultChar );

参数:

CodePage:指定执行转换的代码页,这个参数可以为系统已安装或有效的任 何代码页所给定的值。你也可以指定其为下面的任意一值:

CP_ACP:ANSI代码页;CP_MACCP:Macintosh代码 页;CP_OEMCP:OEM代码页;

CP_SYMBOL:符号代码页(42);CP_THREAD_ACP:当前线索ANSI代码 页;

CP_UTF7:使用UTF-7转换;CP_UTF8:使用UTF-8转换。

dwFlags [in] Specifies the handling of unmapped characters. The function performs more quickly when none of these flags is set. The following flag constants are defined.

Value

Meaning

WC_NO_BEST_FIT_CHARS

Windows 98/Me and Windows 2000/XP: Any Unicode characters that do not translate directly to multibyte equivalents are translated to the default character (see lpDefaultChar parameter). In other words, if translating from Unicode to multibyte and back to Unicode again does not yield the exact same Unicode character, the default character is used. This flag can be used by itself or in combination with the other dwFlag options.

WC_COMPOSITECHECK

Convert composite characters to precomposed characters.

WC_DISCARDNS

Discard nonspacing characters during conversion.

WC_SEPCHARS

Generate separate characters during conversion. This is the default conversion behavior.

WC_DEFAULTCHAR

Replace exceptions with the default character during conversion.

When WC_COMPOSITECHECK is specified, the function converts composite characters to precomposed characters. A composite character consists of a base character and a nonspacing character, each having different character values. A precomposed character has a single character value for a base/nonspacing character combination. In the character , the e is the base character, and the accent grave mark is the nonspacing character.

When an application specifies WC_COMPOSITECHECK, it can use the last three flags in this list (WC_DISCARDNS, WC_SEPCHARS, and WC_DEFAULTCHAR) to customize the conversion to precomposed characters. These flags determine the function's behavior when there is no precomposed mapping for a base/nonspace character combination in a wide-character string. These last three flags can only be used if the WC_COMPOSITECHECK flag is set.

The function's default behavior is to generate separate characters (WC_SEPCHARS) for unmapped composite characters.

For the code pages in the following table, dwFlags must be zero, otherwise the function fails with ERROR_INVALID_FLAGS.

50220 50221

50222

50225

50227 50229

52936

54936

57002 through 57011 65000 (UTF7)

65001 (UTF8)

42 (Symbol)

相关变量

lpWideCharStr:指向将被转换的unicode字符串。

cchWideChar:指定由参数lpWideCharStr指向的缓冲区的 字符个数。如果这个值为-1,字符串将被设定为以NULL为结束符的字符串,并且自动计算长度。

lpMultiByteStr:指向接收被转换字符串的缓冲区。

cchMultiByte:指定由参数lpMultiByteStr指向的缓冲 区最大值(用字节来计量)。若此值为零,函数返回lpMultiByteStr指向的目标缓冲区所必需的字节数,在这种情况 下,lpMultiByteStr参数通常为NULL。

lpDefaultChar和pfUsedDefaultChar: 只有当WideCharToMultiByte函数遇到一个宽字节字符,而该字符在uCodePage参数标识的代码页中并没有它的表示法 时,WideCharToMultiByte函数才使用这两个参数。如果宽字节字符不能被转换,该函数便使用lpDefaultChar参数指向的字符。 如果该参数是NULL(这是大多数情况下的参数值),那么该函数使用系统的默认字符。该默认字符通常是个问号。这对于文件名来说是危险的,因为问号是个通 配符。pfUsedDefaultChar参数指向一个布尔变量,如果Unicode字符串中至少有一个字符不能转换成等价多字节字符,那么函数就将该变 量置为TRUE。如果所有字符均被成功地转换,那么该函数就将该变量置为FALSE。当函数返回以便检查宽字节字符串是否被成功地转换后,可以测试该变 量。

返回值: 如果函数运行成功,并且cchMultiByte不为零,返回值是由 lpMultiByteStr指向的缓冲区中写入的字节数;如果函数运行成功,并且cchMultiByte为零,返回值是接收到待转换字符串的缓冲区所 必需的字节数。如果函数运行失败,返回值为零。若想获得更多错误信息,请调用GetLastError函数。它可以返回下面所列错误代码:

ERROR_INSUFFICIENT_BJFFER;ERROR_INVALID_FLAGS;

ERROR_INVALID_PARAMETER;ERROR_NO_UNICODE_TRANSLATION。

注意: 指针lpMultiByteStr和lpWideCharStr必须不一样。如果一样, 函数将失败,GetLastError将返回ERROR_INVALID_PARAMETER的值。

除此之外,还有几个比较有意思的字符串处理函数:

1.GetTextCharsetInfo

函数功能: 返回关于选入指定的设备描述表内的当前字体信息。

函数原型

int GetTextCharsetInfo(
__in HDC hdc,
__out LPFONTSIGNATURE lpSig,
__in DWORD dwFlags
);

参数

hdc [in] 设备描述表的句柄。

lpSig [out] 可选。指向一个 FONTSIGNATURE 数据结构的指针,该指针接收字体签名信息。

如果一个 True Type 字体被选入当前的设别描述表,结构会接收能够标识编码页和Unicode 子范围的字体符号。

如果字体不是 True Type ,则结构会接收到0.此时,应用程序应使用 TranslateCharsetInfo 函数来获得原始的字体签名。

如果应用程序不需要 FONTSIGNATURE 信息时,可以将该参数设为NULL。此时,应用程序也可以调用GetTextCharset 函数,而且调用该函数与调用GetTextCharset函数是一个效果。

dwFlags [in] 保留。必须为0.

返回值

如果超过,返回一个值用来标识选入设备描述表内的字体的字符集信息。如果函数失败,返回值是  DEFAULT_CHARSET.

2.GetTextCharset
函数功能:
此函数获取当前选进的设备描述表的字符集,等同于GetTextCharsetInfo(hdc,   NULL,   0)。

函数原型: int   GetTextCharset(   HDC   hdc   );

返回值:   成功返回字符集标识,失败返回DEFAULT_CHARSET。

3.BOOL   IsDBCSLeadByte(   BYTE   TestChar   );
此函数使用当前WindowsANSI代码页判断指定字节是不是一个潜在的双字节字符(DBCS)的引导字节。若使用其他代码页,请用

IsDBCSLeadByteEx函数。

4.BOOL   IsDBCSLeadByteEx( UINT   CodePage, BYTE   TestChar );
此函数判断指定字节是不是一个潜在的双字节字符(DBCS)的引导字节。
CodePage可用的值有:CP_ACP,CP_MACCP,CP_OEMCP,CP_THREAD_ACP。

5. BOOL   IsTextUnicode( CONST   VOID*   pBuffer, int   cb, LPINT   lpi );
此函数判断指定缓冲区里是否可能会有某种格式的Unicode文本。这个函数判断方式并不准确,所以可能会返回错误结果。记事本就是使用

了这个函数,所以有时候会出现乱码。所以请谨慎使用这个函数。

还有三个Windows不推荐使用的函数:NlsDllCodePageTranslation,UnicodeToBytes和BytesToUnicode,此处不作过多介绍了。

其中,我们重点关注的还是MultiByteToWideChar和WideCharToMultiByte这两个函数,具体这两个函数的使用方式,

请关注下集故事《让你的程序更加适用——使用ANSI和UNICODE导出函数》


同系列文章参看:

《多字符集(ANSI)和UNICODE及字符串处理方式准则》

 

《 让你的程序更加适用——使用ANSI和UNICODE导出函数 》



  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值