多处理机系统——存储一致性模型(consistency)

KGback

已于 2024-01-23 21:26:35 修改

阅读量4.0k

点赞数 4

分类专栏： # 计算机体系结构文章标签：数据库

于 2020-07-01 08:09:34 首次发布

本文链接：https://blog.csdn.net/qq_39815222/article/details/107029271

版权

计算机体系结构专栏收录该内容

12 篇文章 3 订阅

订阅专栏

存储一致性是指读操作应返回对该存储单元最近一次写操作的值。随着技术的进步和发展，CPU进入多核时代。不同Core需要同时访问共享的存储器区间，对共享的数据区间进行读写。由于不同core在执行程序时存在着很多随机性和不确定性，因此，他们访问memory的顺序也存在着随机性和不确定性，从而造成多核程序执行的不确定性。

为了给上层软件明确规定多核程序访问共享数据的结果，在指令集架构中引入了存储器模型的概念。存储器模型又称为存储一致性模型。用于定义系统中对存储器访问需要遵守的原则，只要软件和硬件都遵循该原则，就能保证多核程序能运行得到确切的结果。也可以把存储一致性模型看成是多处理器系统设计者与应用程序之间的一种约定，它给出了正确编写程序的标准，是程序员无需考虑具体的访存次序就能编写正确程序，而系统设计者则可以根据这个约定来优化设计提高性能。
通常来说，存储一致性模型对访存事件次序施加的限制越弱，越有利于提高性能，但增加了编程难度。且限制越强的存储器模型程序可以在限制较弱的存储器模型上运行，很少会导致错误。

该模型同样适用于单核多线程结构，以下可以多核代替多线程理解。
下文中提到的原子指令参见：计算机体系结构——指令系统——原子指令-CSDN博客
提到的屏障指令参见：计算机体系结构——指令系统——屏障指令_fence指令-CSDN博客

几种典型的存储器模型，下文将根据限制强弱程度从强到弱排序总结：

1. 顺序一致性模型（SC）

也称为强定序模型，从施加的限制来看，该模型下load/store是顺序的访问存储器。

施加的限制

每个core都按照程序顺序来执行程序，即便访问的是不同存储器地址，也不能改变访问顺序
从全局看，每个存储器写操作都需要能被系统中所有的core同时观测到，同一时刻只有core和存储系统相连，因此对memory的访问时原子化的，串行化的。

举例说明

若一个典型的需同步的双核场景：core0要写入一片数据到某一段地址区间中，然后通知core1将此片数据读走。如果处理器的指令集架构符合顺序一致性模型，那么在多个core上执行的程序就好像在一个单core上顺序执行一样。例如某双核结构core1，core2。分别执行A，B，C，D和a，b，c，d各四条存储器访问指令。访问结果无论是ABCDabcd还是ABabcCdD，只要符合任意一核的访问顺序，都是合法的。
顺序一致性模型简单直观，但限制了CPU硬件和编译器的优化，影响了整个系统的性能。

2. 完全存储定序模型（TSO）

由于CPU主频和存储器频率相差较大，系统设计人员通常会在CPU中增加存储缓冲区（store buffer），它的作用是为store指令提供缓冲，使得CPU不用等待存储器的响应。但是由于store缓冲的存在，一些在store之后的load指令可能会越过该指令提前执行，那一个core的store-load操作通常会被其他core看成乱序执行了，变成load-store了。因此在在该模型下，访存操作的四种组合store-store，store-load，load-store，load-load中，只有store-load存在乱序。

施加的限制

store操作在store_buffer中顺序执行
load同样按顺序执行，但可穿插到多个store执行过程中
stores can be reordered after loads
若存在一组store->load操作，如果由同一core执行且地址相关，则TSO允许该load操作在store操作完成之前就执行；但如果由多个core执行且地址相关，那TSO要求load指令在store执行完成后才能执行。

优化方法

事实上，虽然存储模型规定了存储器访存操作的执行顺序，但是仍然存在一些难以协调的地方。例如在TSO模型中，store->load会存在load结果不确定的情况，此时需要采用同步机制，例如原子指令操作以及屏障操作。

需要硬件支持来实现同步操作：原子指令，存储器屏障
阻塞流水线，疏通store buffer

参考链接：
内存一致性模型-TSO - 知乎
 CPU发展史解密-内存一致性模型-内存一致性问题

3. 部分存储定序模型（PSO）

系统设计人员并不满足TSO模型带来的性能提升，于是继续在TSO的基础上放松访问内存访问限制，允许CPU以非FIFO来处理store buffer缓冲区的指令，CPU只保证地址相关指令在store buffer中以FIFO的形式进行处理，而其他的则可以乱序处理。

施加的限制

同一core中地址不相关的store->store指令可以互相穿插执行
load按顺序执行，但可穿插到多个store执行过程中。

优化方法——屏障指令
屏障指令
举例说明

如下图所示，S1和S2是地址不相关的指令，需要把NEW和SET值加载到寄存器r1，r2中。

core1中的store指令会被推到store buffer，如果此时flag在C1的cache中存在，那么CPU会优先将S2执行完成；然后等data缓存到C1的cache后，再执行S1指令。则总的执行顺序为S2 L1 L2 S2。此时执行的结果是r1=SET，r2=0。不是期望的结果。