分布式理论：CAP定理

最新推荐文章于 2022-08-04 12:44:17 发布

yale2

最新推荐文章于 2022-08-04 12:44:17 发布

阅读量360

点赞数

文章标签： java

本文链接：https://blog.csdn.net/qq_33195129/article/details/108076610

版权

面试的时候，经常会被问道CAP定理和BASE理论，结果傻傻分不清两种理论到底是什么，有什么关系。下面我们简单介绍一下两种理论。

CAP定理

2000 年7月的时候，加州大学伯克利分校的Eric Brewer 教授提出了 CAP 猜想，2年后，被来自于麻省理工
的Seth Gilbert 和 Nancy Lynch 从理论上证明了猜想的可能性，从此，CAP 定理正式在学术上成为了分布式
计算领域的公认定理。并深深的影响了分布式计算的发展。

CAP 理论含义是，一个分布式系统不可能同时满足一致性（C:Consistency)，可用性（A: Availability）和分区容错
性（P：Partition tolerance）这三个基本需求，最多只能同时满足其中的2个

选项	描述
C 一致性	分布式系统当中的一致性指的是所有节点的数据一致，或者说是所有副本的数据一致
A 可用性	Reads and writes always succeed. 也就是说系统一直可用，而且服务一直保持正常
P 分区容错性	系统在遇到一些节点或者网络分区故障的时候，仍然能够提供满足一致性和可用性的服务

在这里插入图片描述
C - Consistency

一致性是指写操作后读操作可以读到最新的数据状态,当数据分布在多个节点上时,从任意节点读取到的数据都是最新的.

商品信息读写要满足一致性需要实现如下目标:
1.商品服务写入主数据库成功, 则想从数据库查询数据也成功
2.商品服务写入主数据库失败,则向从数据库查询也失败

如何实现一致性?
1.写入主数据库后要数据同步到从数据库
2.写入主数据库后,在向从数据库同步期间要将从数据库锁定, 等待同步完成后在释放锁,以免在写新数据后,向从数据库查询到旧的数据.

分布式一致性的特点:
1.由于存在数据库同步过程,写操作的响应会有一定的延迟
2.为了保定数据的一致性,对资源暂时锁定,待数据同步完成后释放锁定资源
3.如果请求数据同步失败的节点则会返回错误信息, 一定不会返回旧数据.

A - Availability

可用性是指任何操作都可以得到响应的结果,且不会出现响应超时或响应错误。
商品信息读写要满足可用性需要实现如下目标:
1.从数据库接收到数据库查询的请求则立即能够响应数据查询结果
2.从数据库不允许出现响应超时或错误

如何实现可用性?
1.写入主数据库后要将数据同步到从数据
2.由于要保证数据库的可用性,不可以将数据库中资源锁定
3.即使数据还没有同步过来,从数据库也要返回查询数据, 哪怕是旧数据,但不能返回错误和超时.

P - Partition tolerance

分布式系统的各个节点部署在不同的子网中, 不可避免的会出现由于网络问题导致节点之间通信失败,此时仍可以对外提供服务, 这个就是分区容错性 (分区容忍性).

商品信息读写要满足分区容错性需要实现如下目标:
1.主数据库想从数据库同步数据失败不形象写操作
2.其中一个节点挂掉不会影响另一个节点对外提供服务

如何实现分区容错性?
1.尽量使用异步取代同步操作,举例使用异步方式将数据从主数据库同步到从数据库, 这样节点之间能有效的实现松耦合;
2.添加数据库节点,其中一个从节点挂掉,由其他从节点提供服务

CAP只能 3 选 2
在这里插入图片描述
关于CAP这三个特性我们就介绍完了，接下来我们试着证明一下为什么CAP不能同时满足。
假设有一个系统如下：

有用户向N1发送了请求更改了数据，将数据库从V0更新成了V1。由于网络断开，所以N2数据库依然是V0，如果这个时候有一个请求发给了N2，但是N2并没有办法可以直接给出最新的结果V1，这个时候该怎么办呢？

这个时候无法两种方法，一种是将错就错，将错误的V0数据返回给用户。第二种是阻塞等待，等待网络通信恢复，N2中的数据更新之后再返回给用户。显然前者牺牲了一致性，后者牺牲了可用性。

这个例子虽然简单，但是说明的内容却很重要。在分布式系统当中，CAP三个特性我们是无法同时满足的，必然要舍弃一个。三者舍弃一个，显然排列组合一共有三种可能。

舍弃A(可用性)，保留CP(一致性和分区容错性)

一个系统保证了一致性和分区容错性，舍弃可用性。也就是说在极端情况下，允许出现系统无法访问的情况出现，这个时候往往会牺牲用户体验，让用户保持等待，一直到系统数据一致了之后，再恢复服务。

舍弃C(一致性)，保留AP(可用性和分区容错性)

这种是大部分的分布式系统的设计，保证高可用和分区容错，但是会牺牲一致性。

舍弃P(分区容错性)，保留CA(一致性和可用性)

如果要舍弃P，那么就是要舍弃分布式系统，CAP也就无从谈起了。可以说P是分布式系统的前提，所以这种情况是不存在的。

CAP在我们开源框架中其实也得到了验证，比如比较常用的zookeeper和eureka。下面我们再结合zookeeper和eureka说说CAP。

1 Zookeeper保证CP

当向注册中心查询服务列表时，我们可以容忍注册中心返回的是几分钟以前的注册信息，但不能接受服务直接down掉不可用。也就是说，服务注册功能对可用性的要求要高于一致性。但是zk会出现这样一种情况，当master节点因为网络故障与其他节点失去联系时，剩余节点会重新进行leader选举。问题在于，选举leader的时间太长，30 ~ 120s, 且选举期间整个zk集群都是不可用的，这就导致在选举期间注册服务瘫痪。在云部署的环境下，因网络问题使得zk集群失去master节点是较大概率会发生的事，虽然服务能够最终恢复，但是漫长的选举时间导致的注册长期不可用是不能容忍的。
2 Eureka保证AP

Eureka看明白了这一点，因此在设计时就优先保证可用性。Eureka各个节点都是平等的，几个节点挂掉不会影响正常节点的工作，剩余的节点依然可以提供注册和查询服务。而Eureka的客户端在向某个Eureka注册或时如果发现连接失败，则会自动切换至其它节点，只要有一台Eureka还在，就能保证注册服务可用(保证可用性)，只不过查到的信息可能不是最新的(不保证强一致性)。除此之外，Eureka还有一种自我保护机制，如果在15分钟内超过85%的节点都没有正常的心跳，那么Eureka就认为客户端与注册中心出现了网络故障，此时会出现以下几种情况：

Eureka不再从注册列表中移除因为长时间没收到心跳而应该过期的服务
Eureka仍然能够接受新服务的注册和查询请求，但是不会被同步到其它节点上(即保证当前节点依然可用)
当网络稳定时，当前实例新的注册信息会被同步到其它节点中

因此， Eureka可以很好的应对因网络故障导致部分节点失去联系的情况，而不会像zookeeper那样使整个注册服务瘫痪。

总结
CAP我们就暂时讲到这里，其实在那种内存型的服务器中，CAP是可以都满足的，只是想不到具体的场景，以后了解这些场景后再做分析，下一章我们将BASE理论。

yale2

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分布式理论：CAP定理

面试的时候，经常会被问道CAP定理和BASE理论，结果傻傻分不清两种理论到底是什么，有什么关系。下面我们简单介绍一下两种理论。CAP定理2000 年7月的时候，加州大学伯克利分校的Eric Brewer 教授提出了 CAP 猜想，2年后，被来自于麻省理工的Seth Gilbert 和 Nancy Lynch 从理论上证明了猜想的可能性，从此，CAP 定理正式在学术上成为了分布式计算领域的公认定理。并深深的影响了分布式计算的发展。CAP 理论含义是，一个分布式系统不可能同时满足一致性（C:Co
复制链接

扫一扫