Time, clocks, and the ordering of events in a distributed system
这篇是Lamport在1978年写的关于分布式系统中的逻辑时钟的经典论文[1]。探讨了在分布式系统中如何保持事件之间的有序性的问题。
背景
在分布式系统中,确定两个事件之间的先后顺序并不是那么容易的一件事。具体来说,我们认为a比b先发生是说a发生的时间早于b发生的时间。如果a和b分别是两台机器上的进程,我们则需要首先保证两台机器之间的时间是同步的,否则没有记录的时间没有意义。但是这在实际中非常难以做到。因此作者不依赖物理时间重新定义了 “先发生于” 这个关系,这就是 部分有序。
部分有序(Partial Ordering)
假设有多台机器,每台机器上运行多个进程,每个进程中会运行事件。同时进程可能会给其他机器发送消息,这个发送消息也是事件。
首先定义符号
→
\rightarrow
→,表示先发生于:
- 如果a和b发生于同一台机器上,且a先发生,那么有 a → b a\rightarrow b a→b;
- 如果a给b发送消息,那么也有 a → b a\rightarrow b a→b;
- 如果 a → b a\rightarrow b a→b, b → c b\rightarrow c b→c,那么 a → c a\rightarrow c a→c;
- 如果 a ↛ b a\nrightarrow b a↛b, b ↛ a b\nrightarrow a b↛a,那么a和b是并发的;
在时空图(space-time diagram)中,水平方向表示空间,竖直方向表示时间,向上为更近的时间。水平方向上分布了不同机器上的多个进程,如下图所示。
图中相同进程中的事件很容易看出时序关系。
比如进程P中有:
p
1
→
p
2
p1\rightarrow p2
p1→p2,
p
2
→
p
3
p2\rightarrow p3
p2→p3.……
而不同进程之间根据定义也在部分事件中存在时序关系:
p
1
→
q
2
p1\rightarrow q2
p1→q2,
q
4
→
r
3
q4\rightarrow r3
q4→r3……
同时根据传递性,我们也可以得到:
p
1
→
q
3
p1\rightarrow q3
p1→q3,
q
3
→
p
4
q3\rightarrow p4
q3→p4……
最后,p3与q3,q4都是并发的关系
如果有 a → b a\rightarrow b a→b,那么也说a 因果影响(causally affect) b。同时可以看到在不同进程中有很多并发的事件,即使从物理时间上我们很容易能区分出先后顺序。但是在逻辑时钟上,当两个进程独立运行时我们不做推断,只有两个进程进行通信时,相关的事件才表现出因果影响的关系。
逻辑时钟
如果将时间抽象出来,可以认为时钟不过是附加给事件一串数字,表示事件发生的时间。定义进程
P
i
P_i
Pi拥有时钟
C
i
C_i
Ci,作为赋予事件时间的一个函数,那么
C
i
⟨
a
⟩
C_i\langle a\rangle
Ci⟨a⟩就表示给
P
i
P_i
Pi上的事件
a
a
a赋一个数字
根据先发生于的关系,可以定义逻辑时钟的关系:
时钟条件(Clock Condition).对于事件 a , b a,b a,b,如果有 a → b a\rightarrow b a→b,那么 C ⟨ a ⟩ < C ⟨ b ⟩ C\langle a\rangle < C\langle b\rangle C⟨a⟩<C⟨b⟩
根据 → \rightarrow →的定义和时钟条件的定义,可以看到要满足时钟条件,需要满足如下情况:
C1.如果a和b同属于进程
P
i
P_i
Pi,且a先发生,那么有
C
i
⟨
a
⟩
<
C
i
⟨
b
⟩
C_i\langle a\rangle < C_i\langle b\rangle
Ci⟨a⟩<Ci⟨b⟩
C2.如果a属于
P
i
P_i
Pi,b属于
P
j
P_j
Pj,且a发消息给b,那么有
C
i
⟨
a
⟩
<
C
j
⟨
b
⟩
C_i\langle a\rangle < C_j\langle b\rangle
Ci⟨a⟩<Cj⟨b⟩
再看时空图,有了逻辑时钟我们可以在时空图中绘制时刻线,假设两个事件之间逻辑时钟也会不停的运行。例如
C
⟨
a
⟩
=
4
C\langle a\rangle=4
C⟨a⟩=4,
C
⟨
b
⟩
=
7
C\langle b\rangle=7
C⟨b⟩=7,那么时钟在两个事件之间走过了5,6,7。如果要保证事件之间能表示出先后顺序,我们需要保证C1,即每同一进程中的两个事件之间至少有一条时刻线,和C2,即消息传递要至少跨越一条时间线。绘制满足这两个条件的时空图如下所示:
根据上面的描述,很容易得到进程中的逻辑时钟的算法:
IR1.进程
P
i
P_i
Pi在连续的两个事件中间要增加
C
i
C_i
Ci的值
IR2.进程
P
i
P_i
Pi中的事件a发送带有时间戳
T
m
=
C
i
⟨
a
⟩
T_m=C_i\langle a\rangle
Tm=Ci⟨a⟩的消息,进程
P
j
P_j
Pj的事件b接收消息后将
C
j
C_j
Cj更新为大于
T
m
T_m
Tm的值,且不小于原值
全局有序
通过逻辑时钟算法,可以对一个系统中的所有事件进行排序。
扩展
→
\rightarrow
→到
⇒
\Rightarrow
⇒:
对于事件a、b,仅有(i)
C
i
⟨
a
⟩
<
C
j
⟨
b
⟩
C_i\langle a\rangle < C_j\langle b\rangle
Ci⟨a⟩<Cj⟨b⟩,或者(ii)
C
i
⟨
a
⟩
=
C
j
⟨
b
⟩
C_i\langle a\rangle = C_j\langle b\rangle
Ci⟨a⟩=Cj⟨b⟩且
P
i
≺
P
j
P_i\prec P_j
Pi≺Pj时有
a
⇒
b
a\Rightarrow b
a⇒b
可以看到
⇒
\Rightarrow
⇒依赖于时钟
C
i
C_i
Ci,而
→
\rightarrow
→仅依赖于先发生于的事件关系。
互斥问题
应用全局有序如何解决经典的互斥问题?假设有多个进程争夺一个互斥资源,要程序正确运行,需要满足以下条件:
(I)一个进程使用结束后要先释放再分配给其他进程
(II)多个进程的请求要按照请求顺序进行分配
(III)如果每个进程都在使用后最终释放资源,那么所有的请求最终都会被满足
方便起见,我们忽略网络的不确定性的影响,即一个进程发送的消息最终都会有序的到达另一个进程。因此对于该问题,定义如下算法:
- 进程 P i P_i Pi在请求资源时,先发送 T m : P i T_m:P_i Tm:Pi消息给其他所有进程,并将该消息入请求队列。其中 T m T_m Tm为逻辑时间戳。
- 当进程 P j P_j Pj接收到 T m : P i T_m:P_i Tm:Pi消息时,将它入请求队列,并回复当前时间戳。
- 当进程 P i P_i Pi释放资源时,它将 T m : P i T_m:P_i Tm:Pi出请求队列,并发送带有时间戳的 P i P_i Pi释放消息给其他进程。
- 当进程 P j P_j Pj接收到来自 P i P_i Pi的释放消息时,将出 T m : P i T_m:P_i Tm:Pi请求队列。
- 只有当满足如下条件时, P i P_i Pi才被分配该资源:(i)请求队列中存在 T m : P i T_m:P_i Tm:Pi且 T m : P i ⇒ T_m:P_i\Rightarrow Tm:Pi⇒其他请求消息。(ii) P i P_i Pi接收到来自其他所有的进程的回复,且时间戳都晚于 T m T_m Tm。
证明简单略。
这个算法还是很Naive的,真正要在工程上使用还需要做很多工作。
其他
除了逻辑时钟,作者提到了系统中可能出现的异常行为,简单说来一个系统无法识别来自系统外的事件的依赖关系,因此可能会发生逻辑依赖倒置的情况。要解决这个问题必须依赖外部的必要信息,比如相互的依赖关系,或者使用物理时钟作为参考。
作者也提到了逻辑时钟无法验证一个机器是否还能正常工作,即无法验证超时,而这是分布式系统中不得不面对的问题。因此必须要引入物理时钟。后面作者对该系统中的物理时钟需要满足的条件做出了描述和证明,这里略过。
[1]Leslie Lamport. 1978. Time, clocks, and the ordering of events in a distributed system. Commun. ACM 21, 7 (July 1978), 558–565. DOI:https://doi.org/10.1145/359545.359563