代码执行的效率

要进行 性能调优,首先就要了解操作系统性能,找到程序中的Hotspot,也就是被调用最多的热点地方,只要能够好好优化一下这些地方,性能就会有质的提高。这里给大家用三个网上关于代码执行效率的例子来说明一下。

第一个例子

PHP中Getter和Setter的效率
来源reddit

这个例子比较简单,可以简单了解一下。

考虑下面的PHP代码:我们可看到,使用Getter/Setter的方式,性能要比直接读写成员变量要差一倍以上。

Php代码
  1. <?php  
  2.     //dog_naive.php  
  3.    
  4.     class dog {  
  5.         public $name = "";  
  6.         public function setName($name) {  
  7.             $this-&gt;name = $name;  
  8.         }  
  9.         public function getName() {  
  10.             return $this-&gt;name;  
  11.         }  
  12.     }  
  13.    
  14.     $rover = new dog();  
  15.         //通过Getter/Setter方式  
  16.     for ($x=0; $x<10; $x++) {  
  17.         $t = microtime(true);  
  18.         for ($i=0; $i<1000000; $i++) {  
  19.             $rover->setName("rover");  
  20.             $n = $rover->getName();  
  21.         }  
  22.         echo microtime(true) - $t;  
  23.         echo "\n";  
  24.     }  
  25.         //直接存取变量方式  
  26.         for ($x=0; $x<10; $x++) {  
  27.         $t = microtime(true);  
  28.         for($i=0; $i<1000000; $i++) {  
  29.             $rover->name = "rover";  
  30.             $n = $rover->name;  
  31.         }  
  32.         echo microtime(true) - $t;  
  33.         echo "\n";  
  34.     }  
  35. ?>  

这个并没有什么稀奇,因为有函数调用的开销,函数调用需要压栈出栈,需要传值,有时还要需要中断,要干的事太多了。所以,代码多了,效率自然就慢了。所有的语言都都是这样,这就是为什么C++要引入inline的原因。而且Java在打开优化的时候也可以优化之。但是对于动态语言来说,这个事就变得有点困难了。

你可能会以为使用下面的代码(Magic Function)会好一些,但实际其性能更差。
Php代码
  1. class dog {  
  2.     private $_name = "";  
  3.     function __set($property,$value) {  
  4.         if($property == 'name'$this->_name = $value;  
  5.     }  
  6.     function __get($property) {  
  7.         if($property == 'name'return $this->_name;  
  8.     }  
  9. }  

动态语言的效率从来都是一个问题,如果你需要PHP有更好的性能,你可能需要使用 FaceBook的HipHop来把PHP编译成C语言。

第二个例子

为什么Python程序在函数内执行得更快?
来源StackOverflow

考虑下面的代码,一个在函数体内,一个是全局的代码。

函数内的代码执行效率为 1.8s
Python代码
  1. def main():  
  2.     for i in xrange(10**8):  
  3.         pass  
  4. main()  

函数体外的代码执行效率为 4.5s
代码
  1. for i in xrange(10**8):  
  2.     pass  

不用太纠结时间,只是一个示例,我们可以看到效率差的很多。为什么会这样呢?我们使用 dis module 反汇编函数体内的bytecode 代码,使用 compile builtin 反汇编全局bytecode,我们可以看到下面的反汇编:

Main函数反汇编
代码
  1. 13 FOR_ITER                 6 (to 22)  
  2. 16 STORE_FAST               1 (i)  
  3. 19 JUMP_ABSOLUTE           13  

全局代码
代码
  1. 13 FOR_ITER                 6 (to 22)  
  2. 16 STORE_NAME               1 (i)  
  3. 19 JUMP_ABSOLUTE           13  

我们可以看到,差别就是 STORE_FAST STORE_NAME,前者比后者快很多。所以,在全局代码中,变量i成了一个全局变量,而函数中的i是放在本地变量表中,所以在全局变量表中查找变量就慢很多。如果你在main函数中声明global i 那么效率也就下来了。原因是,本地变量是存在一个数组中(直到),用一个整型常量去访问,而全局变量存在一个dictionary中,查询很慢。

(注:在C/C++中,这个不是一个问题)

第三个例子

为什么排好序的数据在遍历时会更快?
来源StackOverflow

参看如下C/C++的代码:
C代码
  1. for (unsigned i = 0; i < 100000; ++i) {  
  2.    // primary loop  
  3.     for (unsigned j = 0; j < arraySize; ++j) {  
  4.         if (data[j] >= 128)  
  5.             sum += data[j];  
  6.     }  
  7. }  

如果你的data数组是排好序的,那么性能是1.93s,如果没有排序,性能为11.54秒。差5倍多。无论是C/C++/Java,或是别的什么语言都基本上一样。

这个问题的原因是—— branch prediction分支预判)伟大的stackoverflow给了一个非常不错的解释。

考虑一个铁路分叉,当我们的列车来的时候, 扳道员知道每个分叉通往哪,但不知道这个列车要去哪儿,司机知道要去哪,但是不知道走哪条分叉。所以,我们需要让列车停下来,然后司机和扳道员沟通一下。这样的性能太差了。

所以,我们可以优化一下,那就是猜,我们至少有50%的概率猜对,如果猜对了,火车行驶性能巨高,猜错了,就得让火车退回来。如果我猜对的概率高,那么,我们的性能就会高,否则老是猜错了,性能就很差。

我们的if-else 就像这个铁路分叉一样,下面红箭头所指的就是搬道器。


那么,我们的搬道器是怎么预判的呢?就是使用过去的历史数据,如果历史数据有90%以上的走左边,那么就走左边。所以,我们排好序的数据就更容易猜得对。

排好序的
代码
  1. T = 走分支(条件表达式为true)  
  2. N = 不走分支(条件表达式为false)  
  3.    
  4. data[] = 01234, ... 126127128129130, ... 250251252, ...  
  5. branch = N  N  N  N  N  ...   N    N    T    T    T  ...   T    T    T  ...  
  6.    
  7. = NNNNNNNNNNNN ... NNNNNNNTTTTTTTTT ... TTTTTTTTTT  (easy to predict)  


未排序的
代码
  1. data[] = 22618512515819814421779202118,  14150177182133, ...  
  2. branch =   T,   T,   N,   T,   T,   T,   T,  N,   T,   N,   N,   T,   T,   T,   N  ...  
  3.    
  4. = TTNTTTTNTNNTTTN ...   (completely random - hard to predict)  

从上面我们可以看到,排好序的数据更容易预测分支。

对此,那我们怎么办?我们需要在这种循环中除去if-else语句。比如:

我们把条件语句:
C代码
  1. if (data[j] >= 128)  
  2. sum += data[j];  

变成:
C代码
  1. int t = (data[j] - 128) >> 31;  
  2. sum += ~t & data[j];  

“没有分叉”的性能基本上和“排好序有分支”一个样,无论是C/C++,还是Java。

注:在GCC下,如果你使用 -O3 or -ftree-vectorize 编译参数,GCC会帮你优化分叉语句为无分叉语句。VC++2010没有这个功能。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值