分布式理论

最新推荐文章于 2023-09-30 16:43:29 发布

外星喵

最新推荐文章于 2023-09-30 16:43:29 发布

阅读量305

点赞数 2

分类专栏：分布式架构文章标签：分布式 CAP 一致性

本文链接：https://blog.csdn.net/c15158032319/article/details/117886019

版权

分布式架构专栏收录该内容

36 篇文章 3 订阅

订阅专栏

分布式系统介绍

分布式系统是支持分布式处理的软件系统，是在多个计算机上执行任务并借由互联网络的进行通信和协调的系统。包括分布式操作系统、分布式程序设计语言及其编译系统、分布式文件系统分布式数据库系统等。

其拥有的特点如下：

分布性
　　分布式系统中的多台计算机都会在空间中随意分布，同时，机器的分布情况也会随时变动。
对等性
　　分布式系统中的计算机没有主/从之分，既没有控制整个系统的主机，也没有被控制的从机，组成分布式系统的所有计算机节点都是对等的，副本指的是分布式系统对数据和服务提供的一种冗余方式，为了对外提供高可用的服务，我们往往会对数据和服务进行副本处理。数据副本是指在不同的节点上持久化同一份数据，当某一个节点上存储的数据丢失时，可以从副本上读取到该数据，这是解决分布式系统数据丢失问题最为有效的手段。服务副本是只多个节点提供同样的服务，每个节点都有能力接受来自外部的请求并进行相应的处理。
并发性
　　同一分布式系统中的多个节点，可能会并发地操作一些共享资源，诸如数据库或分布式存储等，如何高效地协调分布式并发操作也成为了分布式系统架构与设计中最大的挑战之一。
缺乏全局时钟
　　典型的分布式系统由一系列在空间上随意分布的多个进程组成，具有明显的分布性，这些进程之间通过交换消息来进行互相通信，因此，在分布式系统中，很难定义两个时间究竟谁先谁后，原因就是因为分布式系统缺乏一个全局的时钟序列控制。
故障总是会发生
　　组成分布式系统的所有计算机，都有可能发生任何形式的故障，任何在设计阶段考虑到的异常情况，一定会在系统实际运行中发生。

分布式环境中的问题

通信异常

从集中式到分布式，必然引入了网络因素，而由于网络本身的不可靠性，因此就引入了额外的问题。分布式系统各节点之间的网络通信能够正常进行，其延时也会远大于单机操作，在消息的收发过程中，消息丢失和消息延迟变得十分普遍。

网络分区(脑裂)

当网络发生异常情况时，分布式系统中部分节点之间的网络延时会不断增大，最终导致组成分布式的节点中，只有部分节点之间能够正常通信，而另一些节点则不能，这种现象称之为网络分区。

当网络分区出现时，分布式系统会出现局部小集群，在极端情况下，这些局部小集群会独立完成原本需要整个分布式系统才能完成的功能，但是由于数据被分散或者复制到不同的机器上，如何保证各个分区的主机之间的数据的一致性将成为一个难点。

三态

由于网络可能会出现各种各样的问题，因此分布式系统的每一次请求与响应，存在特有的三态概念：成功、失败、超时。

当网络在异常情况下，可能会出现超时现象，通常由以下两种情况：

由于网络原因，该请求并没有被成功地发送到接收方，而是在发送过程就发生了消息丢失现象。
该请求成功的被接收方接受后，并进行了处理，但是在将响应反馈给发送方时，发生了消息丢失现象。

节点故障

节点故障是指组成分布式系统的服务器节点出现宕机或僵死现象，每个节点都有可能出现故障。通常分布式系统采用主从模式，一个主机连接多个处理节点，主节点负责分发任务，而子节点负责处理业务，当主节点发生故障时，会导致整个系统发故障，我们又把这种故障叫做单点故障。

CAP理论

2000年7月，加州大学伯克利分校的Eric Brewer教授在ACM PODC会议上提出CAP猜想。2年后，麻省理工学院的Seth Gilbert和Nancy Lynch从理论上证明了CAP。之后，CAP理论正式成为分布式计算领域的公认定理。

CAP是为了解决各个节点之间的状态同步问题，所提出关于分布式系统的三个衡量指标，它们分别是

Consistency：一致性
Availability：可用性
Partition tolerance：分区容错性

注意，这三个指标不可能同时做到，最多只能同时满足其中两个条件，并且只能在C和A中二选其一，这个结论就叫做 CAP 定理

一致性：Consistency

通过某个节点的写操作结果对后面通过其它节点的读操作可见
如果更新数据后，并发访问情况下后续读操作可立即感知该更新，称为强一致性
如果允许之后部分或者全部感知不到该更新，称为弱一致性
若在之后的一段时间（通常该时间不固定）后，一定可以感知到该更新，称为最终一致性

举例来说，某条记录是 v0，用户向 G1 发起一个写操作，将其改为 v1。接下来，用户的读操作就会得到 v1。这就叫一致性。

但是假如用户向 G2 发起读操作，由于 G2 的值没有发生变化，因此返回的是 v0。G1 和 G2 读操作的结果不一致，这就是不一致性了。

为了让 G2 也能变为 v1，就要在 G1 写操作的时候，让 G1 向 G2 发送一条消息，要求 G2 也改成 v1。

三种一致性策略

强一致性：对于关系型数据库，要求更新过的数据能被后续的访问都能看到。
弱一致性：如果能容忍后续的部分或者全部访问不到。
最终一致性：如果经过一段时间后要求能访问到更新后的数据。

注意CAP中的这个一致性指的其实是强一致性。

可用性：Availability

任何一个没有发生故障的节点必须在有限的时间内返回合理的结果

比如用户可以选择向 G1 或 G2 发起读操作。不管是哪台服务器，只要收到请求，就必须告诉用户，到底是 v0 还是 v1，否则就不满足可用性。

对于一个可用性的分布式系统，每一个非故障的节点必须对每一个请求作出响应。所以，一般我们在衡量一个系统的可用性的时候，都是通过停机时间来计算的。

可用性分类	可用水平（%）	年可容忍停机时间
容错可用性	99.9999	<1 min
极高可用性	99.999	<5 min
具有故障自动恢复能力的可用性	99.99	<53 min
高可用性	99.9	<8.8h
商品可用性	99	<43.8 min

通常我们描述一个系统的可用性时，我们说淘宝的系统可用性可以达到5个9，意思就是说他的可用水平是99.999%，即全年停机时间不超过 (1-0.99999)*365*24*60 = 5.256 min，这是一个极高的要求。

分区容错性：Partition tolerance

部分节点宕机或者无法与其它节点通信时，各分区间还可保持分布式系统的功能
一般而言，都要求保证分区容忍性。所以在 CAP 理论下，更多的是需要在可用性和一致性之间做权衡。

大多数分布式系统都分布在多个子网络。每个子网络就叫做一个区（partition）。分区容错的意思是，区间通信可能失败。比如，一台服务器放在中国，另一台服务器放在美国，这就是两个区，它们之间可能无法通信。

举个例子，G1 和 G2 是两台跨区的服务器。G1 向 G2 发送一条消息，G2 可能无法收到。系统设计的时候，必须考虑到这种情况。

一般来说，只要是分布式系统，那么分区容错就无可避免，因此可以认为 CAP 的 P 是必选项。

BASE 理论

eBay 的架构师 Dan Pritchett 源于对大规模分布式系统的实践总结，在 ACM 上发表文章提出 BASE 理论，BASE 理论是对 CAP 理论的延伸，核心思想是即使无法
做到强一致性（Strong Consistency，CAP 的一致性就是强一致性），但应用可以采用适合的方式达到最终一致性（Eventual Consitency）。
BASE 是指基本可用（Basically Available）、软状态（ Soft State）、最终一致性（ Eventual Consistency）。
概念

基本可用（Basically Available）

基本可用是指分布式系统在出现故障的时候，允许损失部分可用性，即保证核心可用。
电商大促时，为了应对访问量激增，部分用户可能会被引导到降级页面，服务层也可能只提供降级服务。这就是损失部分可用性的体现。

软状态（ Soft State）

软状态是指允许系统存在中间状态，而该中间状态不会影响系统整体可用性。分布式存储中一般一份数据至少会有三个副本，允许不同节点间副本同步的延时
就是软状态的体现。mysql replication 的异步复制也是一种体现。

最终一致性（ Eventual Consistency）

最终一致性是指系统中的所有数据副本经过一定时间后，最终能够达到一致的状态。弱一致性和强一致性相反，最终一致性是弱一致性的一种特殊情况。

ACID

ACID，是指在数据库管理系统（DBMS）中，事务(transaction)所具有的四个特性：原子性（Atomicity）、一致性（Consistency）、隔离性（Isolation，又称独立性）、持久性（Durability）。

在数据库系统中，一个事务是指由一系列数据库操作组成的一个完整的逻辑过程。例如银行转帐，从原账户扣除金额，以及向目标账户添加金额，这两个数据库操作就构成一个完整的逻辑过程，如果其中一个步骤出错或者中断，则意味着整个流程的失败。这个过程被称为一个事务，并且规定其应当满足ACID的特性。

原子性（Atomicity）

一个事务的所有系列操作步骤被看成是一个动作，所有的步骤要么全部完成要么一个也不会完成，如果事务过程中任何一点失败，将要被改变的数据库记录就不会被真正被改变。

一致性（Consistency）

数据库的约束级联和触发机制Trigger都必须满足事务的一致性。也就是说，通过各种途径包括外键约束等任何写入数据库的数据都是有效的，不能发生表与表之间存在外键约束，但是有数据却违背这种约束性。所有改变数据库数据的动作事务必须完成，没有事务会创建一个无效数据状态，这是不同于CAP理论的一致性"consistency".

隔离性（Isolation）

主要用于实现并发控制, 隔离能够确保并发执行的事务能够顺序一个接一个执行，通过隔离，一个未完成事务不会影响另外一个未完成事务。

持久性（Durability）

一旦一个事务被提交，它应该持久保存，不会因为和其他操作冲突而取消这个事务。

事务完成后，该事务对数据库所作的更改便持久地保存在数据库中，并不会被回滚

关于二阶段提交协议

二阶段提交指的是：分成提交请求阶段（投票阶段）和提交执行阶段（完成阶段）。

第一阶段：每个参与者投票表决事务是放弃还是提交。每个参与者要么直接返回失败，要么在本地执行事务，写本地的 redo 和 undo 日志，但不提交。其预处理要分为三个子步骤：
- 协调者节点向所有参与者节点询问是否可以执行提交操作(vote)，并开始等待各参与者节点的响应。
- 参与者节点执行询问发起为止的所有事务操作，并将 Undo 信息和 Redo 信息写入日志。（注意：若成功这里其实每个参与者已经执行了事务操作）
- 各参与者节点响应协调者节点发起的询问。如果参与者节点的事务操作实际执行成功，则它返回一个”同意”消息；如果参与者节点的事务操作实际执行失败，则它返回一个”中止”消息。
第二阶段：事务的每个参与者都执行最终统一的决定。如果协调者收到了参与者的失败或超时，直接给每个参与者发送回滚(rollback)操作；否则发送提交(commit)消息；参与者根据协调者的指令执行提交或者回滚操作，释放所有事务处理过程中使用的锁资源。无论最后结果如何，第二阶段都结束当前事务。

外星喵

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
2
评论
分布式理论

分布式系统介绍分布式系统是支持分布式处理的软件系统，是在多个计算机上执行任务并借由互联网络的进行通信和协调的系统。包括分布式操作系统、分布式程序设计语言及其编译系统、分布式文件系统分布式数据库系统等。其拥有的特点如下：分布性　　分布式系统中的多台计算机都会在空间中随意分布，同时，机器的分布情况也会随时变动。对等性　　分布式系统中的计算机没有主/从之分，既没有控制整个系统的主机，也没有被控制的从机，组成分布式系统的所有计算机节点都是对等的，副本指的是分布式系统对数据和服务提供的一种冗余方式
复制链接

扫一扫