优化程序性能

  每个时钟周期的时间是时钟频率的倒数,通常是用纳秒(nanosecond,十亿分之一秒)来表示的。一个2GHz的时钟,其周期为0.5纳秒
  寄存器重命名是计算机CPU的微体系结构(Microarchitecture)中的一种技术,避免了机器指令或者微操作不必要的顺序化执行,从而提高了处理器的指令级并行的能力。

  最常见的控制操作数在执行单元间传送的机制称为寄存器重命名(register renaming)。当一条更新寄存器r的指令解码时,产生标记t( tag t),得到一个指向该操作结果的惟一的标识符。条目(r,t)被加入到一张表中,该表维护着每个程序寄存器与会更新该寄存器的操作的标记之间的关联。当随后以寄存器r作为操作数的指令解码时,发送到执行单元的操作会包含t作为操作数源的值。当某个执行单元完成第一个操作时,会生成一个结果(v,t),指明标记为t的操作产生值v。此时,所有等特t作为源的操作都能使用v作为源值了。通过这种机制,值可以直接从一个操作传递到另一个操作,而不是写到寄存器堆再读出来。重命名表只包含关于有未进行写操作的寄存器条目。当一条已解码的指令需要寄存器r,而又没有标记与这个寄存器相关联,这个操作数可以直接从寄存器文件中获得。有了寄存器重命名,即使只有在处理器确定了分支结果之后才能更新寄存器,也可以预测着执行操作的整个序列。

乱序和投机执行:例如,一次迭代中的 incl(++i)操作在前一次迭代的j指令开始之前就执行了。
在这里插入图片描述
通常,处理器性能是受三类约束限制

  1. 程序中的数据相关性迫使一些操作延迟直到它们的操作数被计算出来。因为功能单元有一个或多个周期的执行时间,这就设置了一个给定的操作序列扶行周期数的下界。
  2. 资源约束限制了在任意给定时刻能够执行多少个操作。我们看到,功能单元的有限数量就是这样一种资源约束。其他的约束包括功能单元流水线化的程度,以及ICU和EU中其他资源的限制。例如,一个 Intel Pentium Ⅲ每个时钟周期只能解码三条指令。
  3. 分支预测逻辑的成功限制了处理器能够在指令流中超前工作以保持执行单元繁忙的程度。每次发生预测错误时,处理器从正确的位置重新开始都会引起很大的延迟。

旁注:让编译器展开循环
编译器可以很容易地执行循环展开。只要优化级别设置得足够高(例如,优化选项为“-O2”),许多编译器都能例行公事地做到这一点。在命令行上以“-funroll-loops”调用GCC,它会执行循环展开。

循环展开和并行计算
循环展开 对于短向量效率低,并且增加了代码长度
并行有硬件及指令集限制 ,会导致寄存器溢出。同时对于整数乘法器和浮点加法器只能每个时钟周期发起一条新操作。

for (i = 0; i < limit ; i+=2{			 //二次展开
x0 = x0 OPER data[i];						//x1 与 x2 二路并行
x1 = x1 OPER data[i+1];
)

算法的渐进效率分析

wget http://csapp.cs.cmu.edu/3e/profile-eg.tar
tar -xf profile-eg.tar 
cd profile-eg/
make all

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值