分布式数据一致性解决方案推理过程

平凡人笔记

已于 2023-04-19 09:11:25 修改

阅读量250

点赞数

分类专栏：平凡人笔记文章标签：分布式 redis 缓存

于 2023-04-19 00:00:13 首次发布

本文链接：https://blog.csdn.net/qq_16485855/article/details/130233985

版权

平凡人笔记专栏收录该内容

149 篇文章 6 订阅

订阅专栏

文章讨论了Redis在实现分布式锁时可能遇到的问题，如数据一致性与可用性的权衡，以及Redis的持久化机制（RDB和AOF）如何影响性能和一致性。同时提到了哨兵模式用于主从切换。相比之下，Zookeeper提供了更好的分布式协调，支持强一致性并快速选主。文章建议在实现分布式锁时，Zookeeper可能是优于Redis的选择，还提到了Kubernetes的etcd作为另一种高速解决方案。

摘要由CSDN通过智能技术生成

redis是一个极轻量级的进程，单机单线程单进程。

使用redis很容易实现分布式锁：setnx，同一个key，谁设置成功了，谁就抢到了锁，所以就产生了多锁问题。

假设客户端1抢到了锁，redis挂了，redis重启了之后，客户端2又抢到了锁。

redis持久化能否解决多锁问题？

持久化有RDB和AOF。

RDB是窗口机制的，会丢失将近一个窗口的数据，比如丢失半小时的数据。

AOF有三个缓存级别：每操作成功就记日志、一秒记一次、内核的缓冲区满了才记。

redis要开启AOF最高的缓存级别来保证锁的一致性。

用户发了一个setnx请求，立刻持久化到AOF里面，这样才能保证重启之后，锁被带到内存，另外一个客户端抢不到该锁，因为它没有被释放。

当开启redis持久化方案的时候，性能会下降，redis本来就是基于内存的，它的特征就是快，开启AOF必然降低性能。

如果不想开启AOF，开启哨兵模式：主从复制，加一个哨兵，把锁同步到另外一个节点。

一个redis挂了之后，由哨兵快速的把另外一个redis切换成主。

redis数据同步

一个a程序、一个b程序、一个客户端,

客户端将a=3写入a程序，为了保证a和b 2个redis数据的一致性，会有2种同步方式：

第一种：

客户端将a=3写入a程序，写成功了，但不返回成功，还在这里阻塞着，a同步给b，把a=3写给b， b返回成功之后，a再给客户端返回成功。

如果a挂了，还可以从b取到a=3，这是强一致性的。

有了redis a,为什么还要有redis b?

为了解决可用性问题，本来不加b，a可以一直存活，加了b，b挂了，a没挂，给a写，还必须要同步给b，b还不在，只能阻塞等b恢复，即强一致性行为间接会破坏可用性。如果再有一个redis c，则出现问题的几率更高。

redis主从复制的确可以设置为强一致性，可以配置主收到几个从节点返回的ok，才允许客户端返回。

还有另外一种一致性行为，非同步阻塞，

只要给a写入成功，就可以给客户端返回成功，

这时候a需要把数据发给b或发给c，但是a不等b或c返回ok，

若a刚给客户端返回ok，a挂了，但b和c还没有处理，此时随便选择一个当主，客户端就获取不到a=3了，这叫弱一致性，弱一致性不能保证数据的一致性。

a挂掉了，把a=3带走了，a把a=3给b和c的时候，这是一个不可靠的给法，因为它不知道对方有没有收到a=3或a=3有没有处理成功等一些列的未知情况。

假设在a和b、c中间加一个可靠的技术d，d和a、b、c之间不会出现网络断开的情况。

a把a=3给到了d，a挂了，d还没有给到b和c，d中有a=3，未来只需要b能够连接到d这个区域，把a=3取回来，最终b和c可以还原到a挂机的状态。

数据同步可能会有延迟，但可以达到最终一致性。

d区域一般不是一台服务器，推荐3、5、7..台。

客户端把a=3写入中间集群中的每一个节点，如果3个都返回ok，才返回给客户端，这是强一致性，但又破坏了可用性。

有一部分返回ok就可以的话就规避了挂机的风险。

那一部分是多少个呢？

如果把a=3请求其中一台，再请求另外两台的时候，就请求不到a=3了或者另外一个客户端从别的节点上取不到a=3。

如果1个节点的话，那更多的节点是取回数据不一致性的情况，但只要有一个节点活着，就可以对外提供服务。

如果是2个节点返回ok呢？

a给这个集群写a=3，返回2个ok。

同时不要只关注a，还要关注中间的这个集群，集群里面必须要两两通信。

只要两个节点能够互相通信，势力范围才能满足2，只要有一个节点不能和别人通信了，势力范围就是1了，不能满足2，这台就会shutdown自己，不会对外提供读写服务。

客户端从集群中节点3取数据的时候，因为它已经shutdown了（此时进程还活着，只是跟别的节点连不上，必须要找到另外一个小伙伴，2个节点的时候，才能对外提供服务）， b和c只能从另外两台（节点1、2）取，这两台曾经又登记过a=3，所以对方一定能够取到正确的数据，这样就可以保证数据最终一致性了。

节点3也会从另外2个节点同步数据，最终整个集群也是数据一致的。

如果集群中有5个节点，

1,2组成一个小集群A，4，5组成一个小集群B，3谁也不理谁，2个小集群A，B都可以对外提供服务，这样出现了脑裂情况。

所以如果5个节点，3个组成一个小集群才能对外提供服务的话，上面的2个小集群均不能对外提供服务，即redis b和c从小集群A和B上是获取不到a=3的，因为不满足3个节点，不能对外提供服务，

集群中，5个节点，同时给这3（节点1-2-3）个写入成功，这3个组成的小集群才能对外提供服务。

如果不过半，就通过，那么就会产生脑裂问题。

可不可以偶数个节点？

3台过半是2台，允许一台挂机，集群还能继续运行。

四台过半数是3，承担风险还是1个。

奇数3和偶数4承担的风险是一样的，4台还更容易挂一台，所以偶数台没有必要，风险反而更大，所以从成本和风险考虑，选择奇数台。

中间这个集群是什么？

zk是分布式协调服务，自带高可靠光环。

redis组建一个主从复制分布式集群，需要解决分布式数据同步或选主等分布式行为。

zk给别人提供服务的时候，如果它自己都不可靠的话，那别人更不可靠。

zk必须是集群多机的，所以自带了高可靠的光环，挂了一台无所谓，依然对外提供服务。

zk对外提供服务的时候，还需要考虑成本，

a和集群中的5个节点都建立连接，然后过半的节点都给它返回ok，这样增加了客户端连接和通信的成本。

将中间区域做一个整体对外提供服务

a向这个中间件发送数据，中间件返回给a有没有写入成功即可。

redis集群部署的时候，一般是主从集群，在三个里面，选出一个leader，这个leader负责增删改查和向其他从节点同步数据，只要leader活着，其他从节点有一个活着，在满足势力范围是2的条件下，就可以组成一个小集群对外提供服务。

a只要发给中间件集群中的leader节点就可以了。

zk为了完成分布式协调做了一些事情，redis却没有做这些事情。

zk在leader节点活着的时候叫主从集群，和主节点通信就可以了，主在同步给从节点，主一旦挂掉了，就会进入无主集群，只有主才能对外提供服务，此时就会立刻选主，从剩下2台中选择一个主，只要选主够快，对外影响就不大。

选的要够快，而且能够选出来，官方在集群压测的情况下，恢复leader时间是200ms，

里面也有observer观察者，即便zk集群很大，最终选主投票的节点可以限定的很少，所以恢复leader的时间是很快的，

这么快是怎么实现的?

比如班级100个人中，投票选举谁最帅，每个人都发自己最帅，这样会陷入恶性循环，第一轮投票失效，可能会投出30秒或30个小时。加一个条件，谁可以说话，谁就最帅，这样只能选择老师，只有老师才可以说话。

zk哨兵模式就是这样做的，zk配置文件中有一个myid，server.1 server.2 ... 会给每一个zk server一个数值，而且全局唯一不能重复。

主从集群有一个好处，主是单点的，一台很容易实现串行化。

还有一个事务id，客户端给主发了一个操作，给一个事务id加1，第二个操作再增加1，这就是zxid。

当有一个节点挂了之后，剩余存活的节点要亮出自己的2个id，优先判断谁的事务id最大，因为事务id最大代表数据最全，所以谁的事务id最大，谁立刻就是leader了。

如果两个人的事务id都一样，就亮出自己的全局唯一的id，谁最大，谁就是leader，所以选举的过程，根本不需要消耗太多的时间，这是谦让机制。

从无主投票到过半机制，其实是符合paxos协议的，zk单独实现了paxos协议，叫zab协议。

如果想使用redis做分布式锁怎么做

redis开启磁盘持久化后性能会下降，开启主从复制，强一致性数据同步容易破坏可用性，redis中间还没有加数据缓冲的过程即上面所说的中间件区域，redis本身没有实现，但zk实现了。

redis自己同步数据的时候只能实现弱一致性，可能会出现数据不一致，就会造成双锁的现象。

c1从redis A获取到了分布式锁，redisA还没有来得及同步给redisB，redisA就挂了。

哨兵把redisB设置成主，c2从新主抢到了锁，结果2个客户端都拿到一把锁。

使用redis做分布式锁一直就存在争议。

替代性redis分布式锁的是zk，zk做分布式协调，本身就是主从的。

redis 胖客户端

应用程序中引入redis jar包，客户端自己每次要写三个，

这是一个间接的伪cp，客户端尽量向所有redis去写数据，

客户端1和客户端2都去抢锁，如何确定锁的唯一性？

不是redis自身实现的（类似于zk实现的），而是由客户端来代替了leader角色。

俩客户端去抢锁，要是zk的话，客户端给zk的leader就可以了，zk自己去同步。

redis胖客户端写数据给redis集群中的每个节点，写之后，另外一个客户端如果想判断有没有这把锁，有的话，就说明被其他客户端是使用了，尽量查询每个节点数据，客户端再判断到底有没有这把锁。

这种方式也可以承担一部分挂掉的风险，3个redis节点允许挂掉一个。

解决分布式数据一致性的话，要么是基于paxos协议，由中间件自己去设计实现，要么就是由客户端自己完成对过半机制的判定。

不推荐redis实现分布式锁，zk肯定要优于redis，还有另外一种k8s etcd速度高于zk，实现较复杂。