1998年,加州大学的计算机科学家 Eric Brewer 提出,分布式系统有三个指标。
- Consistency
- Availability
- Partition tolerance
它们的第一个字母分别是 C、A、P。
Eric Brewer 说,这三个指标不可能同时做到。这个结论就叫做 CAP 定理。
- Consistency (一致性)
同一时刻,所有分区的值是一致的。
若想保证同一时刻,所有分区值是一致的,必须在修改某一分区时,锁定其他分区为不可用,故可用性不能满足。
- Availability(可用性)
任何时刻,都用可用的分区进行响应。
若想任何时刻,都有分区进行相应,则不能保证数据一致性。例如用户 A 在分区 1 修改数据,同是用户 B 请求分区 2,若想要保证可用性,则数据必定是不满足一致性的。
- Partition tolerance (分区容错):
一个分布式系统里面,节点组成的网络本来应该是连通的。然而可能因为一些故障,使得有些节点之间不连通了,整个网络就分成了几块区域。数据就散布在了这些不连通的区域中。这就叫分区。
当你一个数据项只在一个节点中保存,那么分区出现后,和这个节点不连通的部分就访问不到这个数据了。这时分区就是无法容忍的。
提高分区容忍性的办法就是一个数据项复制到多个节点上,那么出现分区之后,这一数据项就可能分布到各个区里。容忍性就提高了。
然而,要把数据复制到多个节点,就会带来一致性的问题,就是多个节点上面的数据可能是不一致的。要保证一致,每次写操作就都要等待全部节点写成功,而这等待又会带来可用性的问题。
总的来说就是,数据存在的节点越多,分区容忍性越高,但要复制更新的数据就越多,一致性就越难保证。为了保证一致性,更新所有节点数据所需要的时间就越长,可用性就会降低。
所以,分区容错指的是,通过分区来提高容错,若分区为 1 ,则不能容错,所以分区必定大于1。因此可以认为 CAP 的 P 总是成立。CAP 定理告诉我们,剩下的 C 和 A 无法同时做到。
分布式系统:在互相隔离的空间中,提供数据服务的系统。
CAP抽象:不同空间的数据,在同一时间,状态一致。
C:代表状态一致
A:代表同一时间
P:代表不同空间
CP:不同空间中的数据,如果要求他们所有状态一致,则必然不在同一时间。
AP:不同空间中,如果要求同一时间都可以从任意的空间拿到数据,则必然数据的状态不一致。
CA:不同空间的数据,如果要求任意时间都可以从任意空间拿到状态一致的数据,则空间数必然为1.
链接:https://www.zhihu.com/question/54105974/answer/139037688