第一阶段:全量同步
- 从节点执行slaveof命令和主节点建立了连接,然后发送同步请求;
- 主节点收到消息判断是否是第一次请求,如果是,将数据版本信息发送给从节点;
- 从节点存储存储数据相关的offset 与 replication id;
第二阶段:全量同步
- 主节点后台 fork 子进程生成 RDB;
- 将生产的 RDB 文件发送给从节点;
- 由于在记录 RDB 的同时会生成指令,主节点将这部分指令存储到repl_baklog;
- 将 repl_baklog 的指令发送到从节点;从节点进行存储;
增量同步
- 从节点带上 replication id 和 offset 向主节点请求同步;
- 主节点根据 replication id 判断是否和自己的一致;如果一致则回复继续;
- 主节点从 repl_baklog 中取出数据,同步到从节点;
- 从节点接收之后存储指令;
注意:增量同步过程中需要注意一个问题:repl_baklog 是一个循环数组,offset 是主节点和从节点同步内容的偏移量。由于 repl_baklog 是一个循环数组,当从节点停止过长时间,旧数据会被新数据覆盖,这时候只能做全量同步。
主节点如何判断一个从节点是第一次同步数据?
- 从节点第一次请求主节点,会带上 replication id,主节点收到从节点 replication id,和自己的 replication id 对比,如果不相同说明是第一次请求同步数据,主节点将自己的 replication id 发送给从节点,从节点存储主节点的 replication id,从节点后续请求再带上该 replication id。
主节点如何知道每次从 repl_baklog 中获取哪部分数据同步从节点?
- 从节点请求时会带上offset偏移量,这个就可以让主节点知道从什么地方开始同步