预备知识
原因
参考:
C+±虚函数效率低 虚函数效率低 虚函数为什么执行效率低?
虚函数的编译过程:
- 编译器发现一个类中有虚函数,编译器会立即为此类生成虚拟函数表 vtable(后面有对vtable的分析)。虚拟函数表的各表项为指向对应虚拟函数的指针。
- 编译器在此类中隐含插入一个指针vptr(对vc编译器来说,它插在类的第一个位置上)。
- 在调用此类的构造函数时,在类的构造函数中,编译器会隐含执行vptr与vtable的关联代码,将vptr指向对应的vtable。这就将类与此类的vtable联系了起来。
- 在调用类的构造函数时,指向基础类的指针此时已经变成指向具体的类的this指针,这样依靠此this指针即可得到正确的vtable,从而实现了多态性。在此时才能真正与函数体进行连接,这就是动态联编。
所以,调用虚函数需要一次间接的寻址,而一般的函数可以在编译时定位到函数的地址,虚函数(动态类型调用)是要根据某个指针定位到函数的地址。
如果是虚函数,多出来的一次查找vtable所带来的开销,倒是次要的,关键在于,这个函数地址是动态的,譬如取到的地址在eax里。
pf->test();
011E146D mov eax,dword ptr [pf]
011E1470 mov edx,dword ptr [eax]
011E1472 mov esi,esp
011E1474 mov ecx,dword ptr [pf]
011E1477 mov eax,dword ptr [edx]
011E1479 call eax <------------------------- 分支预测失效
011E147B cmp esi,esp
011E147D call @ILT+355(__RTC_CheckEsp) (11E1168
由于CPU流水线会预取指令,在取call eax指令后,因为eax的值还不能确定,就只能依赖分支预测预取指令,甚至更糟的情况(比如只调用一次)是无法预测,流水线阻塞直到读到eax的值为止。而执行到call eax执行时,发现分支预测失败,那些已经被预取进入流水线的所有指令都将失效。流水线越长,一次分支预测失败的代价也就越大。
而如果不是虚函数,那么函数地址在编译器是确定的,那么指令就会是call 0x2455之类的访问常数地址,cpu读到这条指令之后就知道接下来去哪里读之后的指令,不会导致分支预测;