在 VB 中使用 Unicode API

原创 2003年06月13日 17:00:00

在 VB 中使用 Unicode API


介绍

  也许大家都知道,Visual Basic 内部的所有和字符串相关的函数使用的都是 Unicode。

  Unicode 是一套字符集。与其他传统单一字节的字符集不同的是,它使用两个字节来表示一个字符,这使得可用字符的数量大大增加(理论上说,一个字节可以包含最多 256 个字符,而两个字节可以包含 65536 个字符)。在这里请注意,不要把 GB2312 之类的双字节字符集和 Unicode 混淆:前者既有单字节字符(如英文)也有双字节字符(如中文),这样使得管理十分麻烦,并且它只支持一种代码页;而 Unicode 的字符都是双字节的,使得管理、转换和使用字符串变得十分容易。并且它支持世界上的所有的常用文字,使得一个程序可以同时在屏幕上显示多种语言的文字,而不用关心当前的代码页。

  好了在简单地介绍了 Unicode 之后,现在来介绍 Unicode API(什么?不知道什么是 API ?(汗)如果是那样的话这篇文章可能不太适合你)。

  Windows NT 从一开始就在其内部使用 Unicode ,以至于其后续产品(Windows 2000、XP)都一直沿用它。而 Windows 95、98和 ME 就没有那么幸运,它们都一直使用单(双)字节的字符集。这样就使得同一个有关字符串的 API 有两个不同字符集的版本:Unicode 版和非 Unicode 版。在函数名上,Unicode 版的 API 具有一个 'W' 后缀代表 wide ,如:MessageBoxW;而非 Unicode 版的 API 具有一个 'A' 后缀代表 ANSI ,如:MessageBoxA。
  在 Windows NT/2000/XP 上这两种版本的 API 都有,也就是说 Windows NT 支持 Unicode 和非 Unicode 字符集。而在 Windows 95/98/ME 上几乎所有 API 都只有其非 Unicode 版本,意味着它们之支持单(双)字节字符集。


VB 和 Unicode API

  现在言归正传。VB 在使用了 Unicode 之后,可以享受到 Unicode 所带来的各种好处。不过,麻烦也随之而来了……
  因为 Windows 95/98/ME 不支持 Unicode ,而 VB 只支持 Unicode ,所以当从 VB 里调用一个非 Unicode API 时,VB 先要把所有字符串都转换成非 Unicode 字符串,然后调用 API,最后把所有字符串再转换回 Unicode(见图1)。这样使得 API 的调用速度变得十分缓慢,而且效率很低。


┌─────────┐  ┌──────────────┐  ┌────────┐
│         │->│转换为非Unicode(A)│->│        │
│         │  └──────────────┘  │ API(A) │
│ VB程序(W) │                    │        │
│         │  ┌─────────────┐   └────────┘
│         │<-│转换为Unicode(W)│<───────┘   
└─────────┘  └─────────────┘          
图1:调用非 Unicode API :需要转换来转换去


  看到这里,也许有的人会问了“那为什么不用 Unicode API 呢?”在 API 查看器中的 API 都是非 Unicode 的(Alias 以 'A' 结尾),是因为兼容性问题。要让程序在 Windows 9x 和 NT 里都能执行,就必须要调用非 Unicode 的 API ,要不然的话会很麻烦;不过这是以性能为代价的。
  如果程序需要高性能,经常使用需要传递字符串为参数的 API,而且只运行在 Windows NT/2000/XP 环境下的话(如服务器程序),完全可以用 Unicode API 来替换效率超低的非 Unicode API (见图2)。


┌─────────┐                    ┌────────┐
│         │───────────────────>│        │
│         │                    │ API(W) │
│ VB程序(W) │                    │        │
│         │                    └────────┘
│         │<-───────────────────────┘   
└─────────┘                           
图2:调用 Unicode API :不需要转换



实践

对于刚接触 API 的程序员来说,知道怎样把现有的非 Unicode API 声明转化为 Unicode API 声明就已经足够了:


以下是一个简单的 API 声明:(作用是获得一个窗体的标题)

Declare Function GetWindowText Lib "user32" Alias "GetWindowTextA" (ByVal hwnd As Long, ByVal lpString As String, ByVal cch As Long) As Long
'GetWindowTextA' 指明这是一个非 Unicode API

以下是修改后的 API 声明:

Declare Function GetWindowText Lib "user32" Alias "GetWindowTextW" (ByVal hwnd As Long, ByVal lpString As Long, ByVal cch As Long) As Long
'GetWindowTextW' 指明这是一个 Unicode API

由此可见,修改一个非 Unicode API 成为一个 Unicode API 的要点是:
    * 把 Alias 里函数名的结尾 'A' 换成 'W'。
    * 把所有 ByVal *** As String ,改为 ByVal *** As Long 。


以上是声明方法,以下是调用方法:


原来的调用方法:  rc = GetWindowText(hwnd, str, strlen)

修改后的调用方法: rc = GetWindowText(hwnd, StrPtr(str), strlen)


由此可见,调用一个 Unicode API 的要点是把原来应为  字符串变量/常量  的地方改为  StrPtr(字符串变量/常量) 。



对于接触 API 有一段时间的程序员来说,有必要了解以上声明方法和调用方法的原理。


首先,把 Alias 里函数名的结尾 'A' 换成 'W' 是因为我们需要调用 Windows NT/2000/XP Unicode 版本的 API 。

其次先介绍一下 VB 可变长度字符串变量。VB 可变长度字符串变量其实是一个指向其 Unicode 字符串的指针(见图3)。


┌───────┐    ┌───────┐
│  ...  │    │  ...  │
│┈┈┈┈┈┈┈│    │┈┈┈┈┈┈┈│
│  变量a  │    │ 字符串长度 │
│┈┈┈┈┈┈┈│    │┈┈┈┈┈┈┈│
│  变量b  │  ->│  字符1  │
│┈┈┈┈┈┈┈│ /  │┈┈┈┈┈┈┈│
│ 字符串变量 │─   │  字符2  │
│┈┈┈┈┈┈┈│    │┈┈┈┈┈┈┈│
│  变量c  │    │  字符3  │
│┈┈┈┈┈┈┈│    │┈┈┈┈┈┈┈│
│  变量d  │    │  字符4  │
│┈┈┈┈┈┈┈│    │┈┈┈┈┈┈┈│
│  ...  │    │  ...  │
└───────┘    └───────┘
图3:VB 可变长度字符串变量


把所有 ByVal *** As String ,改为 ByVal *** As Long 是因为我们要传递 VB Unicode 字符串的地址,而不是字符串转换成 ANSI 后的地址。

把原来应为  字符串变量/常量  的地方改为  StrPtr(字符串变量/常量) 是因为我们可以通过 StrPtr 函数来获得 Unicode 字符串的地址(既图3中‘字符1’的地址)。


例子

  在知道怎样转换和调用 Unicode API 之后,让我们来看一个例子:

' 在 VB 中使用 Unicode API
' 选择 lstrcpy 这个函数完全是因为所有除了 Windows 95 的 Windows 系统都支持它的 Unicode 版本,包括 WIndows 98 和 ME。
' 使得大家可以在任何 WIndows 95 以上的系统中都可以调试此例子。(事实上, Windows 95/98/ME 只支持大约 16 个 API 的 Unicode 版本。)

' 此程序只是简单地用 API 来复制一个字符串到另一个字符串。该程序只需要一个 Module 就足够了。请务必把工程的启动窗口设为 Sub Main() 。


Option Explicit

' lstrcpy API 的作用是复制一个字符串到另一个字符串。Unicode 和非 Unicode 版本分别为 lstrcpyW 和 lstrcpyA 。
Private Declare Function lstrcpyA Lib "kernel32" (ByVal lpString1 As String, ByVal lpString2 As String) As Long
Private Declare Function lstrcpyW Lib "kernel32" (ByVal lpString1 As Long, ByVal lpString2 As Long) As Long
' 用 timeGetTime API 来计算时间。
Private Declare Function timeGetTime Lib "winmm.dll" () As Long
Private Const COPY_TIMES = 10000& ' 要复制的次数。

Sub Main()
  Dim stra As String, strw As String, strx As String, i As Long
  Dim tm As Long, t1 As Long, t2 As Long

  strx = "Windows XP" ' 要复制的字符串。
  stra = "__________" ' 要用 lstrcpyA 复制到的字符串。
  strw = "__________" ' 要用 lstrcpyW 复制到的字符串。
  
  tm = timeGetTime
  For i = 1& To COPY_TIMES ' 用 lstrcpyA 复制 COPY_TIMES 次。
    lstrcpyA stra, strx
  Next
  t1 = timeGetTime - tm
  
  tm = timeGetTime
  For i = 1& To COPY_TIMES ' 用 lstrcpyW 复制 COPY_TIMES 次。
    lstrcpyW StrPtr(strw), StrPtr(strx)
  Next
  t2 = timeGetTime - tm
  
  MsgBox "ANSI:    复制 '" & stra & "' " & CStr(COPY_TIMES) & " 次用了 " & CStr(t1) & " 毫秒" & vbCrLf & _
         "Unicode: 复制 '" & strw & "' " & CStr(COPY_TIMES) & " 次用了 " & CStr(t2) & " 毫秒" ' 显示结果
End Sub

' 以上程序在 Windows 98 Second Edition + Visual Basic 6 Professional Service Pack 5 下调试通过。
' 结果:非 Unicode API 的运行时间大概是 Unicode API 的 15 倍左右。



结束语

  在 VB 中使用 Unicode API 能够显著提高应用程序用 API 处理字符串的效率。
  用此方法唯一不足的是兼容性问题。不过,微软已经停止了继续开发 Windows 95 系列操作系统,意味着其以后推出的操作系统都将基于 Windows NT 技术,也意味着它们都将支持 Unicode 。
  换句话说,使用 Unicode API 将成为一项大家都要掌握的技术(其实不应该叫“技术”,因为这很简单)。


(限于作者水平,此文难免有缺点或错误,欢迎批评指正,提出修改建议)

vb URL编码 unicode中文互转, gb2312中文互转, utf8中文互转

'//vb将unicode转成汉字, Public Function unicodeDecode(strCode As String) As String Dim Char As S...
  • boys1999
  • boys1999
  • 2014年04月08日 22:26
  • 3506

VC++ 6.0中关于UNICODE和_UNICODE的问题总结

在TCHAR.H头文件中总体的结构如下: /* For backwards compatibility */为了向后的兼容性 #ifdefine _UNICODE     //如果定义了_UN...
  • u012132050
  • u012132050
  • 2015年04月18日 16:00
  • 836

MFC与unicode的纠结

关于MFC的小总结
  • w417950004
  • w417950004
  • 2015年09月17日 20:31
  • 919

UNICODE和ANSI的区别

一、什么是Unicode   先从ASCII说起,ASCII是用来表示英文字符的一种编码规范。每个ASCII字符占用1个字节,因此,ASCII编码可以表示的最大字符数是255(00H—FFH)。其实...
  • u010679895
  • u010679895
  • 2013年08月15日 19:15
  • 869

java程序实现Unicode码和中文互相转换笔记

根据前一篇的补充问题http://blog.csdn.net/fancylovejava/article/details/10142391 有了前一篇文章的了解,大概了解了unicode编码格式了 ...
  • fancylovejava
  • fancylovejava
  • 2013年08月21日 16:20
  • 19261

windows API实现中文中字符串与GBK、Unicode、UTF-8三种编码互转

#include #include #include using namespace std; //gbk转UTF-8 string GbkToUtf8(const std::string& ...
  • bladeandmaster88
  • bladeandmaster88
  • 2017年01月31日 21:39
  • 2356

Unicode字符串的MFC支持及其在Visual Studio中的设置

1. 问题及分析 最近在自己写的MFC程序时,编译总是碰到以下的类似的问题: error C2664: 'BOOL CDC::TextOutW(int,int,const CString &)' ...
  • cyxcw1
  • cyxcw1
  • 2014年01月04日 20:31
  • 5308

使用 Unicode 编码

面向公共语言运行库的应用程序使用编码将字符表示形式从本机字符方案(Unicode)映射为其他方案。应用程序使用解码将字符从非本机方案(非 Unicode)映射为本机方案。System.Text 命名空...
  • x356982611
  • x356982611
  • 2014年10月14日 22:51
  • 1920

Unicode和UTF-8之间的转换详解

分享自http://hi.baidu.com/dustin_xiao     通过这几天的研究,终于明白了Unicode和UTF-8之间编码的区别。Unicode是一个字符集,而UTF-8是Unico...
  • jonahzheng
  • jonahzheng
  • 2013年09月27日 23:14
  • 8243

在lua脚本中使用unicode

说说最近的几个事情1.project采用lua,ui模块肯定是要彻底使用utf-16的,可是lua不支持,怎么办?最后好像是写了userdata,可以将multibytes转成utf-16保存在这个u...
  • lovehappy108
  • lovehappy108
  • 2014年02月23日 18:29
  • 1279
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:在 VB 中使用 Unicode API
举报原因:
原因补充:

(最多只允许输入30个字)