ARM的流水线与PC值的关系

最新推荐文章于 2021-06-11 15:32:07 发布

hututu_404

最新推荐文章于 2021-06-11 15:32:07 发布

阅读量1.5k

点赞数 2

分类专栏：系统文章标签： ARM流水线

系统专栏收录该内容

47 篇文章 2 订阅

订阅专栏

一、两种结构：冯·诺依曼结构和哈佛结构：
1、冯·诺依曼结构
　　冯·诺依曼结构又称作普林斯顿体系结构（Princetionarchitecture）。
1945年，冯·诺依曼首先提出了“存储程序”的概念和二进制原理，后来，人们把利用这种概念和原理设计的电子计算机系统统称为“冯·诺依曼型结构”计算机。冯·诺依曼结构的处理器使用同一个存储器，经由同一个总线传输。
冯·诺依曼结构处理器具有以下几个特点：
　　必须有一个存储器；
　　必须有一个控制器；
　　必须有一个运算器，用于完成算术运算和逻辑运算；
　　必须有输入和输出设备，用于进行人机通信。
冯·诺依曼的主要贡献就是提出并实现了“存储程序”的概念。由于指令和数据都是二进制码，指令和操作数的地址又密切相关，因此，当初选择这种结构是自然的。但是，这种指令和数据共享同一总线的结构，使得信息流的传输成为限制计算机性能的瓶颈，影响了数据处理速度的提高。
　　在典型情况下，完成一条指令需要3个步骤，即：取指令、指令译码和执行指令。从指令流的定时关系也可看出冯·诺依曼结构与哈佛结构处理方式的差别。举一个最简单的对存储器进行读写操作的指令，指令1至指令3均为存、取数指令，对冯·诺依曼结构处理器，由于取指令和存取数据要从同一个存储空间存取，经由同一总线传输，因而它们无法重叠执行，只有一个完成后再进行下一个。
arm7系列的CPU有很多款，其中部分CPU没有内部cache的，比如arm7TDMI，就是纯粹的冯·诺依曼结构，其他有内部cache且数据和指令的cache分离的cpu则使用了哈弗结构。

2、哈佛结构
哈佛结构是一种将程序指令存储和数据存储分开的存储器结构，如图1所示。中央处理器首先到程序指令存储器中读取程序指令内容，解码后得到数据地址，再到相应的数据存储器中读取数据，并进行下一步的操作（通常是执行）。程序指令存储和数据存储分开，可以使指令和数据有不同的数据宽度，如Microchip公司的PIC16芯片的程序指令是14位宽度，而数据是8位宽度。

图1 哈佛体系结构框图
　　哈佛结构的微处理器通常具有较高的执行效率。其程序指令和数据指令分开组织和存储的，执行时可以预先读取下一条指令。
　　目前使用哈佛结构的中央处理器和微控制器有很多，除了Microchip公司的PIC系列芯片，还有摩托罗拉公司的MC68系列、Zilog公司的Z8系列、ATMEL公司的AVR系列和ARM公司的ARM9、ARM10和ARM11。
　　哈佛结构是指程序和数据空间独立的体系结构，目的是为了减轻程序运行时的访存瓶颈。
　　例如最常见的卷积运算中，一条指令同时取两个操作数，在流水线处理时，同时还有一个取指操作，如果程序和数据通过一条总线访问，取指和取数必会产生冲突，而这对大运算量的循环的执行效率是很不利的。
哈佛结构能基本上解决取指和取数的冲突问题。
　　而对另一个操作数的访问，就只能采用Enhanced哈佛结构了，例如像TI那样，数据区再split，并多一组总线。或向AD那样，采用指令cache，指令区可存放一部分数据。
　　在典型情况下，完成一条指令需要3个步骤，即：取指令、指令译码和执行指令。从指令流的定时关系也可看出冯·诺依曼结构与哈佛结构处理方式的差别。举一个最简单的对存储器进行读写操作的指令，指令1至指令3均为存、取数指令，对冯·诺依曼结构处理器，由于取指令和存取数据要从同一个存储空间存取，经由同一总线传输，因而它们无法重叠执行，只有一个完成后再进行下一个。
　　如果采用哈佛结构处理以上同样的3条存取数指令，由于取指令和存取数据分别经由不同的存储空间和不同的总线，使得各条指令可以重叠执行，这样，也就克服了数据流传输的瓶颈，提高了运算速度。

3、冯·诺依曼体系和哈佛总线体系的区别
二者的区别就是程序空间和数据空间是否是一体的。冯·诺依曼结构数据空间和地址空间不分开，哈佛结构数据空间和地址空间是分开的。
　　早期的微处理器大多采用冯·诺依曼结构，典型代表是Intel公司的X86微处理器。取指和取操作数都在同一总线上，通过分时服用的方式进行的。缺点是在高速运行时，不能达到同时取指令和取操作数，从而形成了传输过程的瓶颈。
　　哈佛总线技术应用是以DSP和ARM为代表的。采用哈佛总线体系结构的芯片内部程序空间和数据空间是分开的，这就允许同时取指和取操作数，从而大大提高了运算能力。
DSP芯片硬件结构有冯·诺依曼结构和哈佛结构，两者区别是地址空间和数据空间分开与否。一般DSP都是采用改进型哈佛结构，就是分开的数据空间和地址空间都不只是一条，而是有多条，这根据不同的生产厂商的DSP芯片有所不同。在对外寻址方面从逻辑上来说也是一样，因为外部引脚的原因，一般来说都是通过相应的空间选取来实现的。本质上是同样的道理。

4.改进型的哈佛结构与哈佛体系结构差别

与冯.诺曼结构处理器比较，哈佛结构处理器有两个明显的特点：
(1).使用两个独立的存储器模块，分别存储指令和数据，每个存储模块都不允许指令和数据并存；
(2).使用独立的两条总线，分别作为CPU与每个存储器之间的专用通信路径，而这两条总线之间毫无关联。

后来，又提出了改进的哈佛结构，其结构特点为：
(1).使用两个独立的存储器模块，分别存储指令和数据，每个存储模块都不允许指令和数据并存；
(2).具有一条独立的地址总线和一条独立的数据总线，利用公用地址总线访问两个存储模块（程序存储模块和数据存储模块），公用数据总线则被用来完成程序存储模块或数据存储模块与CPU之间的数据传输；
(3).两条总线由程序存储器和数据存储器分时共用。

5.总结

体系结构与采用的独立与否的总线无关，与指令空间和数据空间的分开独立与否有关。51单片机虽然数据指令存储区是分开的，但总线是分时复用得，所以属于改进型的哈佛结构。ARM9虽然是哈佛结构，但是之前的版本(例如ARM7)也还是冯·诺依曼结构。早期的X86能迅速占有市场，一条很重要的原因，正是靠了冯·诺依曼这种实现简单，成本低的总线结构。现在的处理器虽然外部总线上看是诺依曼结构的，但是由于内部CACHE的存在，因此实际上内部来看已经类似改进型哈佛结构的了。至于优缺点，哈佛结构就是复杂，对外围设备的连接与处理要求高，十分不适合外围存储器的扩展。所以早期通用CPU难以采用这种结构。而单片机，由于内部集成了所需的存储器，所以采用哈佛结构也未尝不可。现在的处理器，依托CACHE的存在，已经很好的将二者统一起来了。

二、ARM流水线结构：

流水线技术通过多个功能部件并行工作来缩短程序执行时间，提高处理器核的效率和吞吐率，从而成为微处理器设计中最为重要的技术之一。ARM7处理器核使用了典型三级流水线的冯·诺伊曼结构，ARM9系列则采用了基于五级流水线的哈佛结构。通过增加流水线级数简化了流水线各级的逻辑，进一步提高了处理器的性能。
ARM7的三级流水线在执行单元完成了大量的工作，包括与操作数相关的寄存器和存储器读写操作、ALU操作以及相关器件之间的数据传输。执行单元的工作往往占用多个时钟周期，从而成为系统性能的瓶颈。ARM9采用了更为高效的五级流水线设计，增加了2个功能部件分别访问存储器并写回结果，且将读寄存器的操作转移到译码部件上，使流水线各部件在功能上更平衡；同时其哈佛架构避免了数据访问和取指的总线冲突。

arm7采用三级流水
（1）取指（fetch）取指级的任务是从程序存储器中读取指令。
（2）译码（decode）译码级完成对指令的分析，并为下一个周期准备数据路径需要的控制信号。在这一级，指令占用译码逻辑，不占用数据通路。
（3）执行（excute）完成指令要求的操作，并根据需要将结果写回寄存器。指令占用数据路径，寄存器堆被读取，操作数在桶行移位器中被移位。运算器产生运算结果并回写到目的寄存器中，运算器根据指令需求和运输结果更改状态寄存器的条件位
arm9采用五级流水
（1）取指（fetch）从存储器中取出指令，并将其放入指令流水线。
（2）译码（decode）指令被译码，从寄存器堆中读取寄存器操作数。在寄存器堆中有3个操作数读端口，因此大多数ARM指令能在1个周期内读取其操作数。
（3）执行（execute）将其中一个操作数移位，并在ALU中产生结果。如果指令是Load或Store指令，则在ALU中计算存储器的地址
(4）缓冲/数据（buffer/data）如果需要则访问数据存储器，否则ALU只是简单地缓冲一个时钟周期，以便是所有的指令具有同样的流水线流程。
（5）回写（write-back）寄存器堆

ARM7处理器采用3级流水线来增加处理器指令流的速度，能提供0.9MIPS/MHz的指令处理速度。

PS:

MIPS（Million Instruction Per Second）表示每秒多少百万条指令。比如0.9MIPS，表示每秒九十万条指令。

MIPS/MHz表示CPU在每MHz的运行速度下可以执行多少个MIPS，如0.9MIPS/MHz则表示如果CPU运行在1MHz的频率下，每秒可执行90万条指令。

如果CPU在20MHz的频率下，每秒可运行1800万条指令。MIPS/MHz可以很好的反映CPU的速度。

3级流水线如上图所示（PC为程序计数器），流水线使用3个阶段，因此指令分3个阶段执行。

⑴ 取指从存储器装载一条指令

⑵ 译码识别将要被执行的指令

⑶ 执行处理指令并将结果写会寄存器

以前学过的51单片机，因为比较简单，所以它的处理器只能完成一条指令的读取和执行后，才会执行下一条指令。这样，PC始终指向的正在“执行”的指令。

而对于ARM7来说因为是3级流水线，所以把指令的处理分为了上面所述的3个阶段。

所以处理时实际是这样的：ARM正在执行第1条指令的同时对第2条指令进行译码，并将第3条指令从存储器中取出。

所以，ARM7流水线只有在取第4条指令时，第1条指令才算完成执行。

下图生动形象的说明了3级流水线的处理机制

下面一句话很关键：无论处理器处于何种状态，程序计数器R15(PC)总是指向“正在取指”的指令，而不是指向“正在执行”的指令或者正在“译码”的指令。

人们一般会习惯性的将正在执行的指令作为参考点，即当前第1条指令。

所以，PC总是指向第3条指令，

或者说PC总是指向当前正在执行的指令地址再加2条指令的地址。

处理器处于ARM状态时，每条指令为4个字节，所以PC值为正在执行的指令地址加8字节，即是：

PC值 = 当前程序执行位置 + 8字节

处理器处于Thumb状态时，每条指令为2字节，所以PC值为正在执行的指令地址加4字节，即是：

PC值 = 当前程序执行位置 + 4字节

下面一个例子就很好的说明了这个问题。

[plain]view plaincopy
0x4000 ADDPC,PC,#4 ;正在被执行的指令，将地址值PC+4写入PC 
0x4004 ...;正在被译码的指令 
0x4008 ...;正在被取指的指令，PC=0x4008 
0x400C ...;PC+4=0x400C 

另外补充说明就是根据以上描述，流水线只有被指令填满时才能发挥最大效能，即每时钟周期完成一条指令的执行（仅单周期指令）。

如果程序发生跳转，流水线会被清空，这将需要几个时钟才能使流水线被再次填满。因此，尽量地少使用跳转指令可以提高程序的执行效率

PC代表程序计数器，流水线使用三个阶段，因此指令分为三个阶段执行：1.取指（从存储器装载一条指令）；2.译码（识别将要被执行的指令）；3.执行（处理指令并将结果写回寄存器）。而R15（PC）总是指向“正在取指”的指令，而不是指向“正在执行”的指令或正在“译码”的指令。一般来说，人们习惯性约定将“正在执行的指令作为参考点”，称之为当前第一条指令，因此PC总是指向第三条指令。当ARM状态时，每条指令为4字节长，所以PC始终指向该指令地址加8字节的地址，即：PC值=当前程序执行位置+8；

    ARM指令是三级流水线，取指，译指，执行时同时执行的，现在PC指向的是正在取指的地址，那么cpu正在译指的指令地址是PC-4（假设在ARM状态下，一个指令占4个字节），cpu正在执行的指令地址是PC-8，也就是说PC所指向的地址和现在所执行的指令地址相差8。
    当突然发生中断的时候，保存的是PC的地址
    这样你就知道了，如果返回的时候返回PC，那么中间就有一个指令没有执行，所以用SUB pc lr-irq #4。

hututu_404

关注

2
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
ARM的流水线与PC值的关系

一、两种结构：冯·诺依曼结构和哈佛结构：1、冯·诺依曼结构　　冯·诺依曼结构又称作普林斯顿体系结构（Princetionarchitecture）。1945年，冯·诺依曼首先提出了“存储程序”的概念和二进制原理，后来，人们把利用这种概念和原理设计的电子计算机系统统称为“冯·诺依曼型结构”计算机。冯·诺依曼结构的处理器使用同一个存储器，经由同一个总线传输。冯·诺依曼结构处理器具有以下几个特点：　
复制链接

扫一扫