CAP原理与数据一致性-CSDN博客

本文链接：https://blog.csdn.net/qq_41826542/article/details/125614030

1. 什么是CAP？

在分布式数据系统中，CAP原理中，有三个要素：

一致性(Consistency)
可用性(Availability)
分区容忍性(Partition tolerance)

CAP原理指的是，这三个要素最多只能同时实现两点，不可能三者兼顾。因此在进行分布式架构设计时，必须做出取舍。而对于分布式数据系统，分区容忍性是基本要求，否则就失去了价值。因此设计分布式数据系统，就是在一致性和可用性之间取一个平衡。对于大多数web应用，其实并不需要强一致性，因此牺牲一致性而换取高可用性，是目前多数分布式数据库产品的方向。

当然，牺牲一致性，并不是完全不管数据的一致性，否则数据是混乱的，那么系统可用性再高分布式再好也没有了价值。牺牲一致性，只是不再要求关系型数据库中的强一致性，而是只要系统能达到最终一致性即可，考虑到客户体验，这个最终一致的时间窗口，要尽可能的对用户透明，也就是需要保障“用户感知到的一致性”。通常是通过数据的多份异步复制来实现系统的高可用和数据的最终一致性的，“用户感知到的一致性”的时间窗口则取决于数据复制到一致状态的时间。

2. 什么是一致性？

在分布式系统中，一致性（Consistency）是指多副本（Replications）问题中的数据一致性。

数据一致性，往往指的是缓存和数据库的一致性。

事务的一致性（事务一致性指ACID），和原子性类似，都是从一个状态变到另一个状态，但不同的是，原子性追求这个过程不能出错，不论结果对不对，不能出错。但一致性更追求结果一致，比如A减少100，B增加100，这是一致的。当A减少100，B增加60，这是原子的，但不是一致的。

ACID，是指数据库管理系统（DBMS）在写入或更新资料的过程中，为保证事务（transaction）是正确可靠的，所必须具备的四个特性：原子性（atomicity，或称不可分割性）、一致性（consistency）、隔离性（isolation，又称独立性）、持久性（durability）。

一致性出现的原因：数据的分布式存储是导致出现一致性的唯一原因

3. 数据一致性的种类

3.1 强一致性

强一致性（线性一致性）：即复制是同步的。(同步就是保证两边是一致完成的)

强一致性两个要求：

任何一次读都能读到某个数据的最近一次写的数据。
系统中的所有进程，看到的操作顺序，都和全局时钟下的顺序一致。

简言之，在任意时刻，所有节点中的数据是一样的。

3.2 弱一致性

弱一致性：即复制是异步的 (异步是前一方完成后，另一方再完成且另一方如果不能完成的话不影响前一方)

数据更新后，如果能容忍后续的访问只能访问到部分或者全部访问不到，则是弱一致性。

最终一致性(eventually consistent)就属于弱一致性。

3.3 强一致性和弱一致性举例

例如，对于关系型数据库，要求更新过的数据能被后续的访问都能看到，这是强一致性
用户更新网站头像，在某个时间点，用户向主库发送更新请求，不久之后主库就收到了请求。在某个时刻，主库又会将数据变更转发给自己的从库。最后，主库通知用户更新成功。

如果在返回“更新成功”并使新头像对其他用户可见之前，主库需要等待从库的确认，确保从库已经收到写入操作，那么复制是同步的，即强一致性。如果主库写入成功后，不等待从库的响应，直接返回“更新成功”，则复制是异步的，即弱一致性。

强一致性可以保证从库有与主库一致的数据。如果主库突然宕机，我们仍可以保证数据完整。但如果从库宕机或网络阻塞，主库就无法完成写入操作。

在实践中，我们通常使一个从库是同步的，而其他的则是异步的。如果这个同步的从库出现问题，则使另一个异步从库同步。这可以确保永远有两个节点拥有完整数据：主库和同步从库。 这种配置称为半同步。

3.4 顺序一致性

两个要求：

任何一次读都能读到某个数据的最近一次写的数据。（和强一致性一样）
系统的所有进程的顺序一致，而且是合理的。即不需要和全局时钟下的顺序一致，错的话一起错，对的话一起对。（强一致性的要求比顺序一致性更严格）

顺序一致性最早是用来描述多核 CPU 的行为的，定义如下：

the result of any execution is the same as if the operations of all the processors were executed in some sequential order, and the operations of each individual processor appear in this sequence in the order specified by its program.

任何执行的结果都是相同的，就像所有处理器的操作都是按某种顺序执行的，每个处理器的操作都是按其程序指定的顺序出现在这个序列中。

如果可以找到一个所有 CPU 执行指令的排序，该排序中每个 CPU 要执行指令的顺序得以保持，且实际的 CPU 执行结果与该指令排序的执行结果一致，则称该次执行达到了顺序一致性。例如：