ARM11处理器中的流水线级数增加研究

摘要:在嵌入式技术中,流水线结构提高了数据处理能力,但流水线级数的增加会消弱指令的执行效率。为了研究如何更好地解决这种影响,通过对流水线结构性能和级数影响的的分析,结合ARM11处理器所使用的技术管理,特别是预测技术和管理机制的运用,阐述了系统性能在保证高效率的同时,还能保持相当好的有效性。这也开拓了在嵌入式开发中合理利用资源的思路。

流水线是RISC执行指令时采用的一种重要机制。在流水线既要能达到更高的性能,还要让客户更加方便的实现流程。ARM11系列处理器是世界上最流行的嵌入式处理器,广泛的应用于个人通讯等嵌入式领域。ARM11处理器正是采用了易于综合的流水线技术,保证了数据流程高效,迅速地时序收敛。随着流水线级数的增加,系统性能越来越高,进一步提高了执行效率。

一, 流水线结构的性能

系统处理数据时,1个指令周期含有4~6个时钟脉冲,每个脉冲周期有不同的部件完成不同的操作。流水线结构,是指每个时钟脉冲都接收吓一跳处理数据的指令只是不同部件做不同的事情,流水线处理器一般把一条指令的执行分成几个级(stages),每一级在一个时钟周期内完成。如果处理器的流水线有k级,则同时可执行的指令条数为k,每条指令处于不同的执行阶段。

设Tk为流水线所用的时间,Ts为不同流水线所用的时间,流水线各段时间相等为△t,当一条流水线完成n个连续任务时,实际加速比S=Tk/Ts=nk/k+n-1,在理想情况下加速比为Smax = limS = k  (n>>k).

那么,得出的结果是加速比等于k(级数)。从中可以看出,性能和级数成正比,随着级数的增加,处理器性能也不断提高。

二,流水线级数的影响

ARM7采用的是三级流水线,ARM9采用的是5级流水线,ARM10采用的是6级流水线,ARM11处理器的流水线和由8级组成,比以前ARM内核减少了40%的吞吐量。8级流水线可以同时执行8条指令。

从通常的角度说,随着流水线深度的增加处理器性能得到提高,而使处理指令的吞吐量也提高了。但当出现多周期指令时,跳转分支指令和中断发生时,流水线都会发生阻塞,而且相邻指令之间也可能应为寄存器冲突导致流水线阻塞,降低流水线效率。同时随着系统时钟频率的增加,指令执行周期也相应减少,对硬件设计要求很高,而且在内核执行1条指令前,需要更多地周期来填充流水线。

ARM流水线的一条指令只有在完全通过“执行”阶段才被处理。若果随后的指令需要用到前面指令的执行结果作为输入,它就要等到前面的指令执行完,即暂时停止相关指令的执行(跳转指令),等到相关数据能从寄存器读出在恢复执行。这样,系统演示(latency)也增加了。流水线级数的增加往往会消弱指令的执行效率,容易造成数据冲突。

三,ARM11处理器中流水线管理

为了解决这种延迟,避免流水线中的这种数据冲突,让前面的指令执行的结果能够快速进入到后面指令的流水线中,ARM11处理器采用了预测技术,存储管理,并行机制等技术来保持最佳的流水线效率。ARM11 mpcore的机构示意图如下图所示。


1,对跳转做出预测与管理

对跳转的预测分为2种:动态预测和静态预测。

动态预测,在ARM11处理器中包含了64个4状态(采用2b转移预测)跳转地址缓存器来保存最近使用过的转换地址。通过这些转换地址记录的查询,处理器就可以预测当前的跳转指令是否会被执行。

静态预测,当采用动态转换预测机制而无法在寻址缓冲内找到正确的地址时,ARM11处理器就会从跳转的方式来判断是否执行。静态预测检查分支是向前跳转还是向后跳转如果是向前跳转,处理器会假设这条指令不被执行。如果是向回跳转,处理器会假设这条指令被执行。

在实际测试中,单纯采用动态预测的准确率为88%,单纯采用静态预测机制的准确率只有77%,而ARM11采用的静态和动态预测组合机制可实现92%的高准确率。对于每一个正确的预测,给指令执行到来的是减少6个时钟周期的等待时间。

从动态到静态的预测,ARM11通过对跳转的方式的分析,进行逻辑判断,对未来做出预测,使有限资源得到优化配置和利用。

2,存储管理

在ARM11处理器中,指令和数据可以更长时间的被保存在CACHE中。由于物理地址CACHE本身的存在,使数据交换避免了反复重载CACHE。而且,当数据的访问引起了CACHEmiss时,CACHE将进行预取,到存储器相应的快中读取需要的数据。只要后面的指令没有用到CACHE Miss将读回来的数据,ARM11处理器流水线会继续执行下去。即使下一条指令还在存储器访问指令,只要数据放在CACHE中,ARM11也会允许这条指令被执行。

3,流水线的并行机制

在流水线的后端使用了三个并行部件结构,ALU,MAC(乘加),LS(存取)。LS流水线是专门用于处理存取操作指令把数据的存取操作与数据的算术操作的耦合性分隔开来可以更有效地执行指令。

一旦指令被解码,将根据操作类型发射到不同的执行单元中。考虑到不同的指令需要不同的执行时间,当3类指令先后被发射到流水线中,ALU或者MAC指令不会由于LS指令的等待而停下来,他们可以同时被执行,即取址,译码和执行等操作可以重叠执行。而且ARM11处理器指令的乱序完成,如果在指令之间没有数据的相关性,所有指令都可以不必等待前面的指令完成而结束自己的执行。

四,结束语

通过技术和机制上的进一步改进,ARM11处理器改善了因为级数的增加带来的影响,使系统能在保证优化到更高的流水线吞吐量的同时,还能保持与以前版本处理器中的流水线一样的有效性。

在进行嵌入式开发中,运用技术预测,确定研发重点,合理利用资源,有助于找出新的思路和方法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值