分布式系统的时间，时钟，以及事件的有序性

最新推荐文章于 2023-02-04 21:21:02 发布

benoxo

最新推荐文章于 2023-02-04 21:21:02 发布

阅读量701

点赞数 1

分类专栏：分布式系统文章标签：分布式网络

本文链接：https://blog.csdn.net/dotmai/article/details/107649338

版权

分布式系统专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Time, clocks, and the ordering of events in a distributed system
这篇是Lamport在1978年写的关于分布式系统中的逻辑时钟的经典论文[1]。探讨了在分布式系统中如何保持事件之间的有序性的问题。

背景

在分布式系统中，确定两个事件之间的先后顺序并不是那么容易的一件事。具体来说，我们认为a比b先发生是说a发生的时间早于b发生的时间。如果a和b分别是两台机器上的进程，我们则需要首先保证两台机器之间的时间是同步的，否则没有记录的时间没有意义。但是这在实际中非常难以做到。因此作者不依赖物理时间重新定义了 “先发生于” 这个关系，这就是 部分有序。

部分有序（Partial Ordering）

假设有多台机器，每台机器上运行多个进程，每个进程中会运行事件。同时进程可能会给其他机器发送消息，这个发送消息也是事件。
首先定义符号 $\rightarrow$ ，表示先发生于：

如果a和b发生于同一台机器上，且a先发生，那么有 $a\rightarrow b$ ；
如果a给b发送消息，那么也有 $a\rightarrow b$ ；
如果 $a\rightarrow b$ ， $b\rightarrow c$ ，那么 $a\rightarrow c$ ；
如果 $a\nrightarrow b$ ， $b\nrightarrow a$ ，那么a和b是并发的；

在时空图(space-time diagram)中，水平方向表示空间，竖直方向表示时间，向上为更近的时间。水平方向上分布了不同机器上的多个进程，如下图所示。

图中相同进程中的事件很容易看出时序关系。
比如进程P中有： $p1\rightarrow p2$ ， $p2\rightarrow p3$ .……
而不同进程之间根据定义也在部分事件中存在时序关系： $p1\rightarrow q2$ ， $q4\rightarrow r3$ ……
同时根据传递性，我们也可以得到： $p1\rightarrow q3$ ， $q3\rightarrow p4$ ……
最后，p3与q3，q4都是并发的关系

如果有 $a\rightarrow b$ ，那么也说a 因果影响(causally affect) b。同时可以看到在不同进程中有很多并发的事件，即使从物理时间上我们很容易能区分出先后顺序。但是在逻辑时钟上，当两个进程独立运行时我们不做推断，只有两个进程进行通信时，相关的事件才表现出因果影响的关系。

逻辑时钟

如果将时间抽象出来，可以认为时钟不过是附加给事件一串数字，表示事件发生的时间。定义进程 $P_i$ 拥有时钟 $C_i$ ，作为赋予事件时间的一个函数，那么 $C_i\langle a\rangle$ 就表示给 $P_i$ 上的事件 $a$ 赋一个数字
根据先发生于的关系，可以定义逻辑时钟的关系：

时钟条件（Clock Condition）.对于事件 $a, b$ ，如果有 $a\rightarrow b$ ，那么 $C\langle a\rangle < C\langle b\rangle$

根据 $\rightarrow$ 的定义和时钟条件的定义，可以看到要满足时钟条件，需要满足如下情况：

C1.如果a和b同属于进程 $P_i$ ，且a先发生，那么有 $C_i\langle a\rangle < C_i\langle b\rangle$
C2.如果a属于 $P_i$ ，b属于 $P_j$ ，且a发消息给b，那么有 $C_i\langle a\rangle < C_j\langle b\rangle$

再看时空图，有了逻辑时钟我们可以在时空图中绘制时刻线，假设两个事件之间逻辑时钟也会不停的运行。例如 $C\langle a\rangle=4$ ， $C\langle b\rangle=7$ ，那么时钟在两个事件之间走过了5，6，7。如果要保证事件之间能表示出先后顺序，我们需要保证C1，即每同一进程中的两个事件之间至少有一条时刻线，和C2，即消息传递要至少跨越一条时间线。绘制满足这两个条件的时空图如下所示：

根据上面的描述，很容易得到进程中的逻辑时钟的算法：

IR1.进程 $P_i$ 在连续的两个事件中间要增加 $C_i$ 的值
IR2.进程 $P_i$ 中的事件a发送带有时间戳 $T_m=C_i\langle a\rangle$ 的消息，进程 $P_j$ 的事件b接收消息后将 $C_j$ 更新为大于 $T_m$ 的值，且不小于原值

全局有序

通过逻辑时钟算法，可以对一个系统中的所有事件进行排序。
扩展 $\rightarrow$ 到 $\Rightarrow$ ：
对于事件a、b，仅有（i） $C_i\langle a\rangle < C_j\langle b\rangle$ ，或者（ii） $C_i\langle a\rangle = C_j\langle b\rangle$ 且 $P_i\prec P_j$ 时有 $a\Rightarrow b$
可以看到 $\Rightarrow$ 依赖于时钟 $C_i$ ，而 $\rightarrow$ 仅依赖于先发生于的事件关系。

互斥问题

应用全局有序如何解决经典的互斥问题？假设有多个进程争夺一个互斥资源，要程序正确运行，需要满足以下条件：
（I）一个进程使用结束后要先释放再分配给其他进程
（II）多个进程的请求要按照请求顺序进行分配
（III）如果每个进程都在使用后最终释放资源，那么所有的请求最终都会被满足

方便起见，我们忽略网络的不确定性的影响，即一个进程发送的消息最终都会有序的到达另一个进程。因此对于该问题，定义如下算法：

进程 $P_i$ 在请求资源时，先发送 $T_m:P_i$ 消息给其他所有进程，并将该消息入请求队列。其中 $T_m$ 为逻辑时间戳。
当进程 $P_j$ 接收到 $T_m:P_i$ 消息时，将它入请求队列，并回复当前时间戳。
当进程 $P_i$ 释放资源时，它将 $T_m:P_i$ 出请求队列，并发送带有时间戳的 $P_i$ 释放消息给其他进程。
当进程 $P_j$ 接收到来自 $P_i$ 的释放消息时，将出 $T_m:P_i$ 请求队列。
只有当满足如下条件时， $P_i$ 才被分配该资源：（i）请求队列中存在 $T_m:P_i$ 且 $T_m:P_i\Rightarrow$ 其他请求消息。（ii） $P_i$ 接收到来自其他所有的进程的回复，且时间戳都晚于 $T_m$ 。

证明简单略。
这个算法还是很Naive的，真正要在工程上使用还需要做很多工作。

其他

除了逻辑时钟，作者提到了系统中可能出现的异常行为，简单说来一个系统无法识别来自系统外的事件的依赖关系，因此可能会发生逻辑依赖倒置的情况。要解决这个问题必须依赖外部的必要信息，比如相互的依赖关系，或者使用物理时钟作为参考。
作者也提到了逻辑时钟无法验证一个机器是否还能正常工作，即无法验证超时，而这是分布式系统中不得不面对的问题。因此必须要引入物理时钟。后面作者对该系统中的物理时钟需要满足的条件做出了描述和证明，这里略过。

[1]Leslie Lamport. 1978. Time, clocks, and the ordering of events in a distributed system. Commun. ACM 21, 7 (July 1978), 558–565. DOI:https://doi.org/10.1145/359545.359563

benoxo

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分布式系统的时间，时钟，以及事件的有序性

Time, clocks, and the ordering of events in a distributed system这篇是Lamport在1978年写的关于分布式系统中的逻辑时钟的经典论文[^1]。探讨了在分布式系统中如何保持事件之间的有序性的问题。背景在分布式系统中，确定两个事件之间的先后顺序并不是那么容易的一件事。具体来说，我们认为a比b先发生是说a发生的时间早于b发生的时间。如果a和b分别是两台机器上的进程，我们则需要首先保证两台机器之间的时间是同步的，否则没有记录的时间没有意义。但
复制链接

扫一扫