【转贴】多核环境下的内存屏障指令

最新推荐文章于 2021-07-11 12:58:06 发布

herman~~

最新推荐文章于 2021-07-11 12:58:06 发布

阅读量894

点赞数

分类专栏：杂项文章标签： cache blog 工作多线程编程 google

杂项专栏收录该内容

58 篇文章 1 订阅

订阅专栏

呵呵，工作小息，抽空看了云风的BLOG，发现又有好东西值得学习了，由于多核的编程之前接触得比较少，所以有了这样的文章，还是很感动的。当然不能忘记感谢前辈们百忙之中抽空写文章，下面是转贴的内容

本来不打算立刻写关于这次软件开发大会的事情。太多可以写的东西，反而不知道怎么写起。今天才有机会上网到处转转，转到周伟民老师的 blog 上，看到这么一篇。里面既然提到我，就想在上面回上两句。可惜 csdn 的 blog 系统实在是太烂了（这个话题我们在周六的沙龙上集体声讨过，暂且按下不表），硬是没发上留言。那么我还是在自己的地盘单独提出来说说吧。

周老师那个 session 正好排在我的前面。同一间会议室，而且内容我也颇有兴趣。也就顺理成章的听了。讲的东西其实满不错的，唯一的抱怨是太像在大学里授课，互动少了点。会场气氛远不如后来 Andrei 讲 Lock-Free Data Structures 那么精彩。

周老师讲的这块内容，正巧我前几年写多线程安全的内存分配器时碰到过，有点研究。加上前几年对 Intel 的东西颇有兴趣，便有了发言的冲动 :) 。当时的会场上下文环境正好是有个朋友提问说：实际上，InterlockedIncrement 的调用是多余的。（事后交换名片得知，提问的这个哥们是来至 google 的程序员）

如果换在几年前，我是赞同这个哥们的观点的。记得 04 年左右，我们公司内部的 maillist 上曾经有类似的讨论。即，在 32 位系统上，写一个 dword 本身就是原子的，如果 cpu 可以保证程序逻辑上的执行次序（program ordering），那么简单的利用写操作就可以替代锁操作。我们在操作完一大片内存数据后，只需要在最后更改关键的标记字，那么不需要加锁也可以保证安全。（还有一个隐含的前提是数据必须被 32bit 对齐）

btw, 当天晚上 Andrei 讲 Lock-Free Data Structures 时向大家提的问题：那个 hazard list 为什么要用单向链表实现？大约也是这个意思，因为链表指针可以被原子的修改而无需加锁。

单核时代它是对的，因为单核 CPU 要求读写操作 self-consistent 。多嘴两句解释一下，现代 CPU 工作时的指令执行次序（process ordering）是可以不同于程序编制的次序（program ordering）的，即乱序执行技术。这个技术可以极大的提高流水线的工作效率。单核 CPU 保证读写操作的 self-consistent 意味着，等到真正读入操作数据时，数据符合 program ordering 上的正确性。

可问题也出在这里。随着多核的发展，为了提高每个核上的流水线效率，多核环境不再保证其安全。在每一个核上，cpu 内部工作时指令都可能被乱序执行。那么逻辑次序上后写入内存的数据未必真的最后写入。核与核之间作为一个整体看的话，却不保证 self-consistent 了。

也就是说，如果你不做多余的防护措施，在一个核上写入一批数据后，如果你期望最后写一个标记数据表示前面的数据都已经准备好；然后从另一个核上依靠判断这个标记位来判定一切数据就绪。这个策略并不可靠。标记位可能被先写入，但其它数据尚未真正写入内存。

解决的方法是，在标记位被写入前，强迫 CPU 串行化。InterlockedIncrement 和它的兄弟们可以提供这种安全性。翻译成 Intel 指令，会发现它在汇编指令前加了 lock 前缀。也就是在这些读写内存的指令在发起时，cpu 会向总线发出一个 lock# 的信号，阻塞住其它内存访问请求。

但这么做未免效率太低。这种影响总线的指令会随着核越来越多而变的越来越低效。可以想象，任意一个核上发起 lock 几乎会让所有的核都短暂的停止工作（除非完全不访问内存？）。我们今天只有两个或四个核，性能影响微乎其微。但是等到机器拥有 32，64 甚至更多核时，就可能相当严重了。

ps. 上面这个说法也不全然正确。因为既然内存锁在多线程编程中运用的非常广泛，自然在芯片设计上是要做优化的。在 Pentium Pro 以后，当被访问内存处于 cache 中时，lock# 信号不会被发到总线上，取而代之的是锁住 cache 。这样代价会小的多，但是在某些情况下依旧昂贵。（当多个核 cache 住同一块内存时会受影响）

轻量一点的方案是执行一条 CPUID 指令，它也可以保证前面的操作被串行化。到了Pentium III ，Intel 在 IA32 指令集中增加了 SFENCE 指令用来提供更细的控制粒度以更少的代价解决这个问题。在指令序列中插入 SFENCE 可以保证在此指令之前的写操作全部完成（非写操作的指令依旧允许乱序执行）。这样我们在另一个核里读相同内存时，几乎不会出错。

在这里我用了“几乎”，是因为诸如访问单项链表，判断标志数据的编程逻辑，对内存的读操作都是上下文相关的。我们可以断言执行次序不会被乱序执行影响。构造一个可能因为乱序读内存而有出错隐患的合适例子不太容易。但是从 Pentium 4 开始，严格上讲，我们需要用 LFENCE 指令（Pentium 3 没有提供也不需要这条指令）配合使用。它可以保证在此之前的 program ordering 上的读内存操作已经完成（否则逻辑结果可能因为多核间同步 cache 等原因而受到影响）。另外有 MFENCE 指令粒度粗一点，可以同时保证读写内存操作都已完成。

本来不打算翻资料，凭印象写的。写完这篇 blog 审了一遍，还是担心留下重大错误。就又一次翻阅了 2005 年在 Intel 网站上免费索取的 IA-32 Intel Architecture Software Developer's Manual Volume 3 的 Chapter 7 ：Multiple-processor management 。

核对后，我想大概意思应该写清楚了，如果有小 bug 还请行家多多包涵。真有兴趣把这点东西搞清楚的朋友，莫信我的一家之言，查 Intel 的手册吧，它写的更加清楚和权威。btw ，不要问我该去哪找，去问 google 。

herman~~

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【转贴】多核环境下的内存屏障指令

呵呵，工作小息，抽空看了云风的BLOG，发现又有好东西值得学习了，由于多核的编程之前接触得比较少，所以有了这样的文章，还是很感动的。当然不能忘记感谢前辈们百忙之中抽空写文章，下面是转贴的内容本来不打算立刻写关于这次软件开发大会的事情。太多可以写的东西，反而不知道怎么写起。今天才有机会上网到处转转，转到周伟民老师的 blog 上，看到这么一篇。里面既然提到我，就想在上面
复制链接

扫一扫

专栏目录