【Redis 开发与运维】复制


一、配置

在分布式系统中为了解决单点问题,通常会把数据复制多个副本部署到其他机器,满足故障恢复和负载均很等需求。Redis 也是如此,它为我们提供了复制功能,实现了相同数据的多个 Redis 副本。

建立复制

  • 参与复制的 Redis 实例化分为主节点(master)和从节点(slave)。默认情况下,Redis 都是主节点。每个从节点只能有一个主节点,而主节点可以同时具有多个从节点。复制的数据流是单向的,只能由主节点复制到从节点。配置复制的方式有以下三种:
    • 在配置文件中加入 slaveof {masterHost} {masterPort} 随 Redis 启动生效
    • 在 redis-server 启动命令后加入 --slaveof {masterHost} {masterPort} 生效
    • 直接使用命令 slaveof {masterHost} {masterPort} 生效
  • slaveof 命令都是在从节点发起,表示指向的主节点是哪个
    • slaveof 本身是异步命令,节点只保存主节点信息后返回,后续复制流程在节点内部异步执行。
    • 主从节点复制成功建立后,可以使用 info replication 命令查看复制相关状态

断开复制

  • slaveof 命令不但可以建立复制,还可以在从节点执行 slaveof no one 来断开与主节点复制关系。断开节点流程:
    • 断开与主节点复制关系
    • 从节点晋升为主节点
  • 从节点断开复制后并不会抛弃原有数据,只是无法在获取主节点上的数据变化
  • 通过 slaveof 命令还可以实现切主操作,所谓切主是指把当前从节点对主节点的复制切换到另一个主节点。执行 slaveof {masterHost} {masterPort} 命令即可,切主操作流程如下:
    • 断开与旧主节点复制关系
    • 与新主节点建立复制关系
    • 删除从节点当前所有数据
    • 对新主节点进行复制操作

安全性

  • 对于数据比较重要的节点,主节点会通过设置 requirepass 参数进行密码验证,这时所有的客户端访问必须使用 auth 命令进行校验。从节点与主节点的复制连接是通过一个特殊标识的客户端来完成,因此需要配置从节点的 masterauth 参数与主节点密码保持一致,这样从节点才可以正确地连接到主节点并发起复制流程。

只读

  • 默认情况下,从节点使用 slave-read-only=yes 配置为只读模式。由于复制只能从主节点到从节点,对于从节点的的任何修改主节点都无法感知,修改从节点会造成主从数据不一致,所以一般将从节点设为只读

传输延迟

  • 主从节点一般部署在不同机器上,复制时的网络延迟就成为需要考虑的问题,Redis 为我们提供了 repl-disable-tcp-nodelay 参数用于控制是否关闭 TCP_NODELAY ,默认为 no,说明如下:
    • 当关闭时,主节点产生的命令数据无论大小都会及实地发送给从节点,这样主从指尖延迟会变小,但增加了网络带宽的消耗。适用于主从之间的网络环境良好的场景,如同机架或同机房部署。
    • 当开启时,主节点会合并较小的 TCP 数据包从而节省带宽。默认发送时间间隔取决于 Linux 的内核,一般默认 40 毫秒。这种配置节省了带宽但增大主从之间的延迟。适用于主从网络环境复杂或带宽紧张的场景,如跨机房部署。

二、拓扑

  • 一主一从结构
    • 最简单的复制拓扑结构,用于主节点出现宕机时从节点提供故障转移支持
  • 一主多从结构
    • 一主多从结构使得应用端可以利用多个从节点实现读写分离。
    • 对于读占比较大的场景,可以把读命令发送到从节点来分担主节点压力。同时在日常开发中如果需要执行一些比较耗时的读命令,如:keys、sort 等,可以在其中一台从节点上执行。
    • 对于写并发量较高的场景,多个从节点会导致主节点写命令的多次发送从而过度消耗网络带宽,同时也加重了主节点的负载影响服务稳定性。
  • 树状主从结构
    • 树状主从结构使得从节点不但可以复制主节点数据,同时可以作为其他从节点的主节点继续向下层复制。通过引入复制中间层,可以有效降低主节点负载和需要传送给从节点的数据量

三、原理

复制过程

从节点执行 slaveof 命令后,复制过程便开始运作,如下流程:

  • 第一步保存主节点信息,包括主节点的 ip 和 port,以及主节点的连接状态,可以在从节点执行 info replication 命令查看到如下信息:
    master_host:127.0.0.1
    master_port:6379
    master_link_status:down
    
  • 第二步:从节点内部通过每秒运行的定时任务维护复制相关的逻辑,当定时任务发现存在新的主节点后,会尝试与该节点建立网络连接
    • 从节点会建立一个 socket 套接字,专门用于接收主节点发送的复制命令,成功的话会打印日志。
    • 如果从节点无法建立连接,定时任务会无限重试直到连接成功或执行 slaveof no one 取消复制。
  • 第三步发送 ping 命令,进行首次通信,ping请求主要目的如下:
    • 检测主从之间网络套接字是否可用。
    • 监测主节点当前是否可接受处理命令。
  • 第四步权限验证。如果主节点设置了 requirepass 参数,则需要密码验证,从节点必须配置 masterauth 参数保证与主节点相同的密码才能通过验证。
  • 第五步:主从复制连接正常通信后,对于首次建立复制的场景,主节点会把持有的数据全部发送给从节点,这部分操作是耗时最长的步骤。
  • 第六步命令持续复制。当主节点把当前的数据同步给从节点后,便完成了复制的建立流程。接下来主节点会持续地把写命令发送给从节点,保证主从数据一致性。

数据同步

Redis 在 2.8 及以上版本使用 psync 命令完成主从数据同步,同步过程分为:全量复制和部分复制。

  • 复制偏移量
    • 参与复制的主从节点都会维护自身复制偏移量。
    • 从节点每秒钟上报自身的复制偏移量给主节点,因此主节点也会保存从节点的复制偏移量。
    • 通过对比主从节点的复制偏移量,可以判断主从节点数据是否一致。
  • 复制积压缓冲区
    • 是保存在主节点上的一个固定长度的队列,默认大小为1MB,当主节点有连接的从节点时被创建,这时主节点响应写命令时,不但会把命令发送给从节点,还会写入复制积压缓冲区
    • 缓冲区本质是先进先出的订场队列,所以能实现保存最近已复制数据的功能,用于部分复制和复制命令丢失的数据补救
  • 主节点运行 ID
    • 每个 Redis 节点启动后都会动态分配一个 40 位的十六进制字符串作为运行ID,主要作用是用来唯一识别 Redis 节点。主节点重启变更了整体数据集,从节点再基于偏移量复制数据将是不安全的,因此当运行ID变化后从节点将做全量复制
    • Redis 关闭再重启,运行 ID 会随之改变,当然也可以做一些配置使它不变。
  • psync 命令
    • 从节点使用 psync 命令完成部分复制和全量复制功能,命令格式:psync {runId} {offset},流程说明:
    • 从节点发送 psync 命令给主节点,参数 runId 是当前从节点保存的主节点运行 ID,如果没有则默认 ?,参数 offset 是当前从节点保存的复制偏移量,如果是第一次参与复制则默认值为 -1。
    • 主节点根据 psync 参数和自身数据情况决定响应结果:
      • 如果回复 +FULLRESYNC {runId} {offset}:从节点将触发全量复制流程
      • 如果回复 +CONTINUE:从节点将触发部分复制流程
      • 如果回复 +ERR ,说明主节点版本低于 Redis 2.8,无法识别

全量复制

主从第一次建立复制时必须经历的阶段。触发全量复制的命令是 sync 和 psync

  • 流程
  1. 发送 psync 命令进行数据同步,由于是第一次进行复制,从节点没有复制偏移量和主节点的运行 ID,所以发送 psync ? -1
  2. 主节点根据 psync ? -1 解析除当前为全量复制,回复 +FULLRESYNC 响应。
  3. 从节点接收主节点的响应数据保存运行 ID 和偏移量 offset
  4. 主节点执行 bgsave 保存 RDB 文件到本地
  5. 主节点发送 RDB 文件给从节点,从节点把接收的 RDB 文件保存在本地并直接作为从节点的数据文件,接收完 RDB 后从节点打印相关日志,可以在日志中查看主节点发送的数据量
  6. 从节点开始接收 RDB 快照到接收完成期间,主节点仍然响应读写命令,因此主节点会把这期间写命令数据保存在复制客户端缓冲区内,当从节点加载完 RDB 文件后,主节点再把缓冲区内的数据发送给从节点,保证主从之间数据一致性。
  7. 从节点接收完主节点传送来的全部数据后会清空自身旧数据
  8. 从节点清空数据后开始加载 RDB 文件
  9. 从节点成功加载完 RDB 后,如果当前节点开启了 AOF 持久化功能,它会立刻做 bgrewriteaof 操作。
  • 时间开销节点
    • 主节点 bgsave 时间
    • RDB 文件网络传输时间
    • 从节点清空数据时间
    • 从节点加载 RDB 时间
    • 可能的 AOF 重写时间

部分复制

当从节点正在复制主节点,如果出现网络闪断或者命令丢失等异常情况时,从节点会向主节点要求补发丢失的命令数据,如果主节点的复制积压缓冲区内存在这部分数据则直接发送给从节点,从而保证主从一致性。使用命令:psync {runId} {offset}

  • 流程
  1. 当从节点之间网络出现中断时,如果超过 repl-timeout 时间,主节点会认为从节点故障并中断复制连接
  2. 主从连接中断期间主节点依然响应命令
  3. 当主从节点网络恢复后,从节点会再次连上主节点
  4. 当主从连接恢复后,由于从节点之前保存了自身已复制的偏移量和主节点的运行 ID。因此会把它们当做 psync 参数发送给主节点,要求进行部分复制操作。
  5. 主节点接到 psync 命令后首先核对参数 runId 是否与自身一致,如果一致,说明之前复制的是当前主节点,之后根据 offset 在自身复制积压缓冲区查找,如果偏移量之后的数据存在缓冲区,则对从节点发送 +CONTINUE 响应,表示可以进行部分复制。
  6. 主节点根据偏移量把复制积压缓冲区里的数据发送给从节点,保证主从复制进入正常状态。

心跳

主从节点在建立复制后,他们之间维护着长连接并彼此发送心跳命令

  • 主节点默认每隔 10 秒对从节点发送 ping 命令,判断从节点的存活性和连接状态。
  • 从节点在主线程中每隔 1 秒发送 replconf ack {offset} 命令,给主节点上报自身当前的复制偏移量,主要作用是:
    • 实时监测主从节点网络状态
    • 上报自身复制偏移量,检查复制数据是否丢失,如果从节点数据丢失,再从主节点的复制缓冲区中拉取丢失的数据
    • 实现保证从节点的数量和延迟性功能

异步复制

主节点不但负责数据读写,还负责把写命令同步给从节点。写命令的发送过程是异步完成的,也就是说主节点自身处理完写命令后直接返回给客户端,并不等待从节点复制完成。

  • 流程
  • 主节点接受客户端写命令
  • 命令处理完后返回响应结果
  • 对于修改命令异步发送给从节点,从节点在主线程中执行复制的命令

四、开发与运维中的问题

读写分离

  • 复制数据延迟
    • Redis 复制数据的延迟由于异步复制特性是无法避免的,延迟取决于网络带宽和命令阻塞情况。
  • 读到过期的数据
    • 首先 Redis 删除过期数据有两种策略
      • 一种是惰性删除策略,主节点每次处理读取命令时都会检查 key 是否超时,过期的话就删除,再把命令异步同步给从节点
      • 一种是定时删除策略,每次去采样一些key,看看有没有过期
    • 如果此时数据量大量超时,主节点采样速度跟不上过期速度且主节点没有读取过期键的操作,那么从节点将无法收到 del 命令。这时在从节点上可以读取到已经超时的数据。Redis 在 3.2 版本解决了这个问题,从节点读取数据之前会检查 key 的过期时间来决定是否返回数据。
  • 从节点故障问题
    • 对于与从节点故障问题,需要在客户端维护可用从节点列表,当从节点故障时立刻切换到其他从节点或主节点上。

主从配置不一致

  • 例如 maxmemory 不一致可能导致丢失数据,比如主节点配置4G,从节点配置为2G,如果数据太多,比如3G,从节点会触发一个数据淘汰策略(根据 maxmemory-policy 可配),比如先淘汰ttl最小的。

规避全量复制

  • 第一次全量复制
    • 第一次不可避免,比如新加入一个从节点,一定需要将主节点的数据全量复制给从节点,所以尽量在低峰期操作
  • 节点运行 ID 不匹配
    • 如果主节点因故障重启,它的运行 ID 会改变,从节点发现主节点运行 ID 不匹配时,则会认为自己复制的是一个新的主节点从而进行全量复制。
    • 对于这种情况应该从架构上规避,比如提供故障转移功能,采用哨兵或集群方案。
  • 复制积压缓冲区不足
    • 当主从节点网络中断后,从节点再次连上主节点时会发送 psync {offset} {runId} 命令请求部分复制,如果请求的偏移量不在主节点的积压缓冲区内,则无法提供给从节点数据,因此部分复制会退化为全量复制。
    • 可以考虑增大复制积压缓冲区大小。

规避复制风暴

复制风暴是指大量从节点对同一主节点或者对同一台机器的多个主节点短时间内发起全量复制的过程。

  • 单主节点复制风暴

    • 单主节点复制风暴一般发生在主节点挂载多个从节点的场景
    • 解决方案首先可以减少主节点挂载从节点的数量,或者采用树状复制结构,加入中间层从节点来保护主节点。
  • 单机器复制风暴

    • 由于 Rdis 的单线程架构,通常单台机器会部署多个 Redis 实例。当一台机器上同时部署多个主节点时,如果这台机器出现故障或网络长时间中断,当它重启恢复后,会有大两从节点针对这台机器的主节点进行全量复制,会造成当前机器网络带宽耗尽。
    • 应该把主节点尽量分散在多台机器上,避免在单台机器上部署过多的主节点。
    • 当主节点所在机器故障后提供故障转移机制,避免机器恢复后进行密集的全量复制。

来源:《Redis 开发与运维》第 6 章 复制

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

发飙的蜗牛咻咻咻~

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值