成员函数指针与高性能的
C++委托(上篇)Member Function Pointers and the Fastest Possible C++ Delegates
撰文:
Don Clugston翻译:周翔
引子
标准
C++ 中没有真正的面向对象的函数指针。这一点对 C++ 来说是不幸的,因为面向对象的指针(也叫做“闭包( closure )”或“委托( delegate )”)在一些语言中已经证明了它宝贵的价值。在 Delphi (Object Pascal) 中,面向对象的函数指针是 Borland 可视化组建库( VCL , Visual Component Library )的基础。而在目前, C# 使“委托”的概念日趋流行,这也正显示出 C# 这种语言的成功。在很多应用程序中,“委托”简化了松耦合对象的设计模式 [GoF] 。这种特性无疑在标准 C++ 中也会产生很大的作用。很遗憾,
C++ 中没有“委托”,它只提供了成员函数指针( member function pointers )。很多程序员从没有用过函数指针,这是有特定的原因的。因为函数指针自身有很多奇怪的语法规则(比如“ ->* ”和“ .* ”操作符),而且很难找到它们的准确含义,并且你会找到更好的办法以避免使用函数指针。更具有讽刺意味的是:事实上,编译器的编写者如果实现“委托”的话会比他费劲地实现成员函数指针要容易地多!在这篇文章中,我要揭开成员函数指针那“神秘的盖子”。在扼要地重述成员函数指针的语法和特性之后,我会向读者解释成员函数指针在一些常用的编译器中是怎样实现的,然后我会向大家展示编译器怎样有效地实现“委托”。最后我会利用这些精深的知识向你展示在
C++ 编译器上实现优化而可靠的“委托”的技术。比如,在 Visual C++(6.0, .NET, and .NET 2003) 中对单一目标委托( single-target delegate )的调用,编译器仅仅生成两行汇编代码!函数指针
下面我们复习一下函数指针。在
C 和 C++ 语言中,一个命名为 my_func_ptr 的函数指针指向一个以一个 int 和一个 char* 为参数的函数,这个函数返回一个浮点值,声明如下:float (*my_func_ptr)(int, char *);
//
为了便于理解,我强烈推荐你使用 typedef 关键字。//
如果不这样的话,当函数指针作为一个函数的参数传递的时候,//
程序会变得晦涩难懂。//
这样的话,声明应如下所示:typedef float (*MyFuncPtrType)(int, char *);
MyFuncPtrType my_func_ptr;
应注意,对每一个函数的参数组合,函数指针的类型应该是不同的。在
Microsoft Visual C++ (以下称 MSVC )中,对三种不同的调用方式有不同的类型: __cdecl, __stdcall, 和 __fastcall 。如果你的函数指针指向一个型如 float some_func(int, char *) 的函数,这样做就可以了:my_func_ptr = some_func;
当你想调用它所指向的函数时,你可以这样写:
(*my_func_ptr)(7, "Arbitrary String");
你可以将一种类型的函数指针转换成另一种函数指针类型,但你不可以将一个函数指针指向一个
void * 型的数据指针。其他的转换操作就不用详叙了。一个函数指针可以被设置为 0 来表明它是一个空指针。所有的比较运算符( ==, !=, <, >, <=, >= )都可以使用,可以使用“ ==0 ”或通过一个显式的布尔转换来测试指针是否为空( null )。在
C 语言中,函数指针通常用来像 qsort 一样将函数作为参数,或者作为 Windows 系统函数的回调函数等等。函数指针还有很多其他的应用。函数指针的实现很简单:它们只是“代码指针( code pointer )”,它们体现在汇编语言中是用来保存子程序代码的首地址。而这种函数指针的存在只是为了保证使用了正确的调用规范。成员函数指针
在
C++ 程序中,很多函数是成员函数,即这些函数是某个类中的一部分。你不可以像一个普通的函数指针那样指向一个成员函数,正确的做法应该是,你必须使用一个成员函数指针。一个成员函数的指针指向类中的一个成员函数,并和以前有相同的参数,声明如下:float (SomeClass::*my_memfunc_ptr)(int, char *);
//对于使用const关键字修饰的成员函数,声明如下:
float (SomeClass::*my_const_memfunc_ptr)(int, char *) const;
注意使用了特殊的运算符(
::* ),而“ SomeClass ”是声明中的一部分。成员函数指针有一个可怕的限制:它们只能指向一个特定的类中的成员函数。对每一种参数的组合,需要有不同的成员函数指针类型,而且对每种使用 const 修饰的函数和不同类中的函数,也要有不同的函数指针类型。在 MSVC 中,对下面这四种调用方式都有一种不同的调用类型: __cdecl, __stdcall, __fastcall, 和 __thiscall 。( __thiscall 是缺省的方式,有趣的是,在任何官方文档中从没有对 __thiscall 关键字的详细描述,但是它经常在错误信息中出现。如果你显式地使用它,你会看到“它被保留作为以后使用( it is reserved for future use )”的错误提示。)如果你使用了成员函数指针,你最好使用 typedef 以防止混淆。将函数指针指向型如
float SomeClass::some_member_func(int, char *) 的函数,你可以这样写:my_memfunc_ptr = &SomeClass::some_member_func;
很多编译器(比如
MSVC )会让你去掉“ & ”,而其他一些编译器(比如 GNU G++ )则需要添加“ & ”,所以在手写程序的时候我建议把它添上。若要调用成员函数指针,你需要先建立 SomeClass 的一个实例,并使用特殊操作符“ ->* ”,这个操作符的优先级较低,你需要将其适当地放入圆括号内。SomeClass *x = new SomeClass;
(x->*my_memfunc_ptr)(6, "Another Arbitrary Parameter");
//如果类在栈上,你也可以使用“.*”运算符。
SomeClass y;
(y.*my_memfunc_ptr)(15, "Different parameters this time");
不要怪我使用如此奇怪的语法——看起来
C++ 的设计者对标点符号有着由衷的感情! C++ 相对于 C 增加了三种特殊运算符来支持成员指针。“ ::* ”用于指针的声明,而“ ->* ”和“ .* ”用来调用指针指向的函数。这样看起来对一个语言模糊而又很少使用的部分的过分关注是多余的。(你当然可以重载“ ->* ”这些运算符,但这不是本文所要涉及的范围。)一个成员函数指针可以被设置成
0 ,并可以使用“ == ”和“ != ”比较运算符,但只能限定在同一个类中的成员函数的指针之间进行这样的比较。任何成员函数指针都可以和 0 做比较以判断它是否为空。与函数指针不同,不等运算符( <, >, <=, >= )对成员函数指针是不可用的。成员函数指针的怪异之处
成员函数指针有时表现得很奇怪。首先,你不可以用一个成员函数指针指向一个静态成员函数,你必须使用普通的函数指针才行(在这里“成员函数指针”会产生误解,它实际上应该是“非静态成员函数指针”才对)。其次,当使用类的继承时,会出现一些比较奇怪的情况。比如,下面的代码在
MSVC 下会编译成功(注意代码注释):#include “stdio.h”
class SomeClass {
public:
virtual void some_member_func(int x, char *p) {
printf("In SomeClass"); };
};
class DerivedClass : public SomeClass {
public:
//
如果你把下一行的注释销掉,带有 line (*) 的那一行会出现错误// virtual void some_member_func(int x, char *p) { printf("In DerivedClass"); };
};
int main() {
//
声明 SomeClass 的成员函数指针typedef void (SomeClass::*SomeClassMFP)(int, char *);
SomeClassMFP my_memfunc_ptr;
my_memfunc_ptr = &DerivedClass::some_member_func; // ---- line (*)
return 0;
}
奇怪的是,
&DerivedClass::some_member_func 是一个 SomeClass 类的成员函数指针,而不是 DerivedClass 类的成员函数指针!(一些编译器稍微有些不同:比如,对于 Digital Mars C++ ,在上面的例子中, &DerivedClass::some_member_func 会被认为没有定义。)但是,如果在 DerivedClass 类中重写( override )了 some_member_func 函数,代码就无法通过编译,因为现在的 &DerivedClass::some_member_func 已成为 DerivedClass 类中的成员函数指针!成员函数指针之间的类型转换是一个讨论起来非常模糊的话题。在
C++ 的标准化的过程中,在涉及继承的类的成员函数指针时,对于将成员函数指针转化为基类的成员函数指针还是转化为子类成员函数指针的问题和是否可以将一个类的成员函数指针转化为另一个不相关的类的成员函数指针的问题,人们曾有过很激烈的争论。然而不幸的是,在标准委员会做出决定之前,不同的编译器生产商已经根据自己对这些问题的不同的回答实现了自己的编译器。根据标准(第 5.2.10/9 节),你可以使用 reinterpret_cast 在一个成员函数指针中保存一个与本来的类不相关的类的成员函数。有关成员函数指针转换的问题的最终结果也没有确定下来。你现在所能做的还是像以前那样——将成员函数指针转化为本类的成员函数的指针。在文章的后面我会继续讨论这个问题,因为这正是各个编译器对这样一个标准没有达成共识的一个话题。在一些编译器中,在基类和子类的成员函数指针之间的转换时常有怪事发生。当涉及到多重继承时,使用
reinterpret_cast 将子类转换成基类时,对某一特定编译器来说有可能通过编译,而也有可能通不过编译,这取决于在子类的基类列表中的基类的顺序!下面就是一个例子:class Derived: public Base1, public Base2 //
情况 (a)class Derived2: public Base2, public Base1 //
情况 (b)typedef void (Derived::* Derived_mfp)();
typedef void (Derived2::* Derived2_mfp)();
typedef void (Base1::* Base1mfp) ();
typedef void (Base2::* Base2mfp) ();
Derived_mfp x;
对于情况
(a),static_cast<Base1mfp> <base1mfp></base1mfp>(x) 是合法的,而 static_cast<Base2mfp> <base2mfp></base2mfp>(x) 则是错误的。然而情况 (b) 却与之相反。你只可以安全地将子类的成员函数指针转化为第一个基类的成员函数指针!如果你要实验一下, MSVC 会发出 C4407 号警告,而 Digital Mars C++ 会出现编译错误。如果用 reinterpret_cast 代替 static_cast,这两个编译器都会发生错误,但是两种编译器对此有着不同的原因。但是一些编译器对此细节置之不理,大家可要小心了!标准C++中另一条有趣的规则是:你可以在类定义之前声明它的成员函数指针。这对一些编译器会有一些无法预料的副作用。我待会讨论这个问题,现在你只要知道要尽可能得避免这种情况就是了。
需要值得注意的是,就像成员函数指针,标准C++中同样提供了成员数据指针(member data pointer)。它们具有相同的操作符,而且有一些实现原则也是相同的。它们用在stl::stable_sort的一些实现方案中,而对此很多其他的应用我就不再提及了。
成员函数指针的使用
现在你可能会觉得成员函数指针是有些奇异。但它可以用来做什么呢?对此我在网上做了非常广泛的调查。最后我总结出使用成员函数指针的两点原因:
用来做例子给 C++ 初学者看,帮助它们学习语法;或者为了实现“委托( delegate )”!
成员函数指针在
STL 和 Boost 库的单行函数适配器( one-line function adaptor )中的使用是微不足道的,而且允许你将成员函数和标准算法混合使用。但是它们最重要的应用是在不同类型的应用程序框架中,比如它们形成了 MFC 消息系统的核心。当你使用
MFC 的消息映射宏(比如 ON_COMMAND )时,你会组装一个包含消息 ID 和成员函数指针(型如: CCmdTarget::* 成员函数指针)的序列。这是 MFC 类必须继承 CCmdTarget 才可以处理消息的原因之一。但是,各种不同的消息处理函数具有不同的参数列表(比如 OnDraw 处理函数的第一个参数的类型为 CDC * ),所以序列中必须包含各种不同类型的成员函数指针。 MFC 是怎样做到这一点的呢? MFC利用了一个可怕的编译器漏洞(hack),它将所有可能出现的成员函数指针放到一个庞大的联合(union)中,从而避免了通常需要进行的C++类型匹配检查。(看一下 afximpl.h 和 cmdtarg.cpp 中名为 MessageMapFunctions 的 union ,你就会发现这一恐怖的事实。)因为 MFC 有如此重要的一部分代码,所以事实是,所有的编译器都为这个漏洞开了绿灯。(但是,在后面我们会看到,如果一些类用到了多重继承,这个漏洞在 MSVC 中就不会起作用,这正是在使用 MFC 时只能必须使用单一继承的原因。)在
boost::function 中有类似的漏洞(但不是太严重)。看起来如果你想做任何有关成员函数指针的比较有趣的事,你就必须做好与这个语言的漏洞进行挑战的准备。要是你想否定 C++ 的成员函数指针设计有缺陷的观点,看来是很难的。在写这篇文章中,我有一点需要指明:“允许成员函数指针之间进行转换(
cast ),而不允许在转换完成后调用其中的函数”,把这个规则纳入 C++ 的标准中是可笑的。首先,很多流行的编译器对这种转换不支持(所以,转换是标准要求的,但不是可移植的)。其次,所有的编译器,如果转换成功,调用转换后的成员函数指针时仍然可以实现你预期的功能:那编译器就没有所谓的“ undefined behavior (未定义的行为)”这类错误出现的必要了(调用( Invocation )是可行的,但这不是标准!)。第三,允许转换而不允许调用是完全没有用处的,只有转换和调用都可行,才能方便而有效地实现委托,从而使这种语言受益。为了让你确信这一具有争议的论断,考虑一下在一个文件中只有下面的一段代码,这段代码是合法的:
class SomeClass;
typedef void (SomeClass::* SomeClassFunction)(void);
void Invoke(SomeClass *pClass, SomeClassFunction funcptr) {
(pClass->*funcptr)(); };
注意到编译器必须生成汇编代码来调用成员函数指针,其实编译器对
SomeClass 类一无所知。显然,除非链接器进行了一些极端精细的优化措施,否则代码会忽视类的实际定义而能够正确地运行。而这造成的直接后果是,你可以“安全地”调用从完全不同的其他类中转换过来的成员函数指针。为解释我的断言的另一半——转换并不能按照标准所说的方式进行,我需要在细节上讨论编译器是怎样实现成员函数指针的。我同时会解释为什么使用成员函数指针的规则具有如此严格的限制。获得详细论述成员函数指针的文档不是太容易,并且大家对错误的言论已经习以为常了,所以,我仔细检查了一系列编译器生成的汇编代码……
(待续)
Trackback: http://tb.blog.csdn.net/TrackBack.aspx?PostId=33068