[Paper Reading] Logical Physical Clocks and Consistent Snapshots in Globally Distributed Databases

最新推荐文章于 2023-04-07 20:25:23 发布

wangxin201492

最新推荐文章于 2023-04-07 20:25:23 发布

阅读量505

点赞数

分类专栏： Paper Reading 文章标签：算法

本文链接：https://blog.csdn.net/wangxin201492/article/details/119963264

版权

Paper Reading 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

Date: 202103

===== 1. Introduction

===== 1.1 Brief history of time

===== 1.2 Contributions of this work

===== 2. Preliminaries

===== 3. HLC: Hybrid Logical Clocks

===== 3.1 Problem statement

===== 3.2 Deacription of the Naive Algorithm

===== 3.3 HLC Algorithm

===== 3.4 Properties of HLC

===== 4. Resilience of HLC

===== 4.1 Self-stabilization

===== 4.2 Masking of synchronization errors

===== 5. Experiments

===== 6. Discussion

===== 6.1 Snapshots

===== 6.2 Compact Timestamping using l and c

===== 7. Conclusion

文章立意在解决分布式系统中的时间戳问题，实践中我们经常需要基于某个物理时间来拿到一个一致性的快照状态，而目前的时间戳算法都不能很好的满足。

物理时间基于NTP同步，而NTP同步存在跳变，不能确定因果关系
逻辑时间脱离了与物理时间
TrueTime 对硬件&协议又有着强依赖

所以本文提出HLC，可以做到通用性，同时能像LC一样确定因果关系，同时又与PT相关联。随之将目标细化：

要求1：e hb f --> l.e < l.f // 能像LC一样确定因果关系
要求2：Space requirement for l.e is O(1) // 时钟的空间复杂度是O(1)，不能像向量时钟那样是o(n)的（n是系统中节点个数）
要求3：l.e is represented with bounded space // 单个时钟是有界的，不能无限增大。LC是无限增大的
要求4：l.e is close to pt.e, i.e. , |l.e - pt.e| is bound // 接近物理时钟（与物理时钟的差保持在一定的界限内）。
- PT的时钟同步有不确定性，所以没法支持用户在指定时间点进行快照。而HLC接近PT（在PT跳变时间容忍内），同时又可以确定因果关系，所以HLC可以支持指定时间点快照

随后提出了确定的HLC算法，如Figure 5中，并给出了相关的证明逻辑。Section 4.1 中提出给 l - pt & c 均设置一个边界值，来更好的保护算法。并在Section 5中提供了一些基础的实际验证，来证明 l -pt & c 是可控的

最后在 6.2 中也提出了 l&c 的compact方式（为了兼容NTP），l使用前48bit来提供ms级别支持，c使用后16bit提供上限65536的事件并发能力

【Vector Clock】[7] J. Fidge. Timestamps in message-passing systems that preserve the partial ordering. Proceedings of the 11th Australian Computer Science Conference, 10(1):56–66, Feb 1988.

【Logical Clock】[12] L.Lamport.Time,clocks,andtheorderingofevents in a distributed system. Communications of the ACM, 21(7):558–565, July 1978.

【Vector Clock】[19] F. Mattern. Virtual time and global states of dis- tributed systems. Parallel and Distributed Algo- rithms, pages 215–226, 1989.

【Spanner、TrueTime】[2] J. Corbett, J. Dean, et al. Spanner: Google’s [15] globally-distributed database. Proceedings of OSDI,
2012.

===== 1. Introduction

===== 1.1 Brief history of time

Logical clock (LC). 逻辑时钟是1978年Lamport提出的一种分布式系统中时间排序方式[12]。LC从物理时间中分离出来，节点没有权限访问时钟，对消息延迟&节点处理速率也没有限制。

while being beneficial for the theory of distributed systems, LC is impractical for today’s distributed systems

LC虽然有利于分布式理论的发展，但是在当今的分布式系统中是不现实的：

使用LC无法查询与物理时间相关的时间
LC假设所有的通信都发生在当前系统中，并且没有反向通道（没有反向通道什么意思？）

Vector clock (VC). 向量时钟在1988年被提出[7,19]，是一个向量版本的LC。

VC maintains a vector at each node which tracks the knowledge this node has about the logical clocks of other nodes.

VC在每个节点上维护一个向量，其跟踪该节点已知其他节点逻辑时钟的信息。

While LC finds one consistent snapshot (that with same LC values at all nodes involved), VC finds all possible consistent snapshots, which is useful for debugging applications.

LC可以找到一个一致性的快照，VC可以找到所有可能的一致性快照，这对debug很有用

LC只会认为(a,w)是一个一致性快照，但是VS会认为(b,w) & (c,w)也是一个一致性的快照

但是VC对于存储空间的要求是十分高的（与节点数强相关）

Physical Time(PT). 物理时间基于NTP[20]进行时钟同步。但是时钟同步是不完美的，可能存在跳变。所以和LC相比，PT可以使用物理时间，但是也存在一些问题：

因为不确定时间的重叠，不能确认事件顺序关系。// NTP在公网可能会有几十毫秒的延迟，理想情况下在局域网可以保持1ms的精度，但是受到网络影响，可能会导致100ms延迟甚至更大
PT可能会有时钟跳变[13,14] 或者非单调的更新[8]。可能会导致时钟go back

True Time(TT). 真实时间是Google最近提出用于部署Spanner[2]使用的。其依赖精心设计的紧密时钟同步，并且每个集群都提供了GPS时钟&原子钟。TT规避了LC/VC/PT的一些问题，但是：

强依赖硬件&自定义构建的时钟同步协议
如果TT用来确定事件顺序关系，由于TT基于时钟同步来完成，所以为了满足这个要求，需要进行等待

HybirdTime(HT). 混合时间结合了VC&PT[10]，用来解决稳定因果顺序合并问题（？）。HT在每个节点上维护了一个VC，包含其一直的其他节点的PT。利用PT时钟同步假设来较少VC的entry，并减少因果追踪的额外消耗（？）。实践中HT使用的空间与ε 相关，ε 表示时钟同步不确定性。

最近，Demirbas and Kulkarni [3]提出，HT可以被使用来解决Spanner的一致性快照问题

===== 1.2 Contributions of this work

In this paper we aim to bridge the gap between the theory (LC) and practice (PT) of timekeeping and timestamping in distributed systems and to provide guarantees that generalize and improve that of TT.

本文目标是解决理论（LC）与实践（PT）在分布式系统中关于时间的一些问题，并且相比于TT具有通用性与性能提升

我们提出了一个逻辑时钟版本的HT，称其为 Hybrid Logical Clock (HLC)。HLC改进了物理时钟&逻辑时钟：

接近NTP时钟，所以一定程度可以替代物理时钟。比如快照读取
保留了逻辑时钟维系的 happen-before(hb) 的关系，所以可以提供一个一致性全局快照，并且不需要等待

兼容NTP：HLC使用 64bit 的NTP时间戳。HLC叠加在NTP协议上（只读取物理时钟，不对其进行更新），所以HLC与使用NTP的程序并行运行，并且不会发生干扰

通用性：不要求 server-client 架构，支持基于WAN的对等节点传输，支持节点使用不同的NTP server

异常容忍：HLC可以容忍常见的NTP异常，同步异常也可以确定因果关系，并且HLC 是自我稳定的，并且对破坏也能弹性容忍。

在各种部署场景及压测场景，HLC都是bounded（有界）的。

广泛使用：使用场景广泛，distributed database / causal message logging in distributed systems [1], Byzantine fault-tolerance protocols [9], distributed debugging [21], distributed filesystems [18], and distributed transactions [25].

===== 2. Preliminaries

分布式系统中每个节点执行三种类型的action之一：send action , receive action , local action .
Timestamping算法目标是为每个event分配一个时间戳。文中使用全大写表示这个 Timestamping算法，使用全小写表示该算法分配的时间戳。 LC 表示逻辑时钟算法，lc.e 表示event e具有的LC时间戳
happened before(hb) 表示系统中事件的因果关系，e happened before f 表述为 e hb f。e和f是并发的表述为 e || f

已有的资料已经证明，如下推论是正确的：

e hb f --> lc.e < lc.f
lc.e = lc.f --> e || f
e hb f --> vc.e < vc.f

反向推论不一定正确

===== 3. HLC: Hybrid Logical Clocks

===== 3.1 Problem statement

这里有2个目标：向LC一样可以确定因果顺序；时钟接近PT。细化一些需求：

要求1：e hb f --> l.e < l.f // 能像LC一样确定因果关系
要求2：Space requirement for l.e is O(1) // 时钟的空间复杂度是O(1)，不能像向量时钟那样是o(n)的（n是系统中节点个数）
要求3：l.e is represented with bounded space // 单个时钟是有界的，不能无限增大。LC是无限增大的
要求4：l.e is close to pt.e, i.e. , |l.e - pt.e| is bound // 接近物理时钟（与物理时钟的差保持在一定的界限内）。
- PT的时钟同步有不确定性，所以没法支持用户在指定时间点进行快照。而HLC接近PT（在PT跳变时间容忍内），同时又可以确定因果关系，所以HLC可以支持指定时间点快照

===== 3.2 Deacription of the Naive Algorithm

初始算法如图3，该算法与LC比较相似，初始lc设置为0.

发送事件f 在 node j 上创建： l.j = max(l.e + 1, pt.j), e 是 node j 上 f 的前一个事件。那么这样就可以保证 l.e < l.f ，并且 l.f >= pt.j
接收事件f 在 node j 上创建： l.j = max(l.e + 1, l.m + 1, pt.j), e 是 node j 上 f 的前一个事件，m是接收的消息的时间戳。那么可以保证 l.f > l.e && l.f > l.m

这个初始的算法满足了前面要求1&要求2，但是违反了要求4，进而违反了要求3

如图四中是一个反例。消息在节点1、2、3中循环传递，那么 |l.e - pt.e| 是无限增长的。

The root of the unbounded drift problem is due to the naive algorithm using l to maintain both the maximum of pt values seen so far and the logical clock increments from new events (local, send, receive).

问题在于 初始算法使用l 来同时维护 已知pt的最大值 以及 逻辑时钟（counter）的增加。

这样我们就无法确定 l 是来自 pt 还是来自因果关系。没有合适的位置来 reset l（以保证l.e-pt.e有界），因为 reset l 会丢失 hb 关系，进而违反要求1.

// 另外，即使我们要求 pt 在2个本地事件之间最少增加1 也不能解决这个问题。图4反例中也证明了这一点。

// 而如果我们要求 pt 在send event & receive event 之间最少增加一，那么是可以保证 l.e-pt.e 是有界的。// 但这有些过于严苛了

===== 3.3 HLC Algorithm

All problems in computer science can be solved by another level of indirection. –David Wheeler

计算机科学中的任何问题都可以用另外一种间接的方法来解决

我们将初始算法中的 l.j 扩展成了 l.j & c.j :

l.j 用来维护当前已知 pt 的最大值
c.j 用确定因果关系，当 l 相同时

HLC算法如图3，初始l & c设置为0.

发送事件f 在 node j 上创建： l.j = max(l.e, pt.j), e 是 node j 上 f 的前一个事件。这里和初始算法比较相似（保证了 l.j >= pt.j），但是我们移除了 "+1" 那么 l.e 可能等于 l.j。这时我们就会增加 c.j 来保证 (l.e, c.e) < (l.f, c.f)
接收事件f 在 node j 上创建： l.j = max(l.e, l.m, pt.j), e 是 node j 上 f 的前一个事件，m是接收的消息的时间戳。c.j 的值取决于 l.j 与 l.e|l.m 是否相等，来进行+1或者reset操作