目录
流复制将主库的数据备份到备库上,使用的一主多从的架构。(pg虽然提供了备份,但在故障时需要人工设置接管,而不能自动接管,除非使用插件)
1.流复制的启动
- 主、备库启动
- 备库启动“启动进程”与WAL接收进程
- 备库定期发送连接请求,直到主库启动 WAL发送进程 并与备库进行TCP连接。
- 备库收到TCP连接,并发送最新的LSN(握手)
- 如果备库的LSN小于主库的LSN,则主库将备库落后的WAL段文件发送给备库以同步之前的数据
- 备库重放接收到的WAL日志(追赶)
- 流复制开始工作
连接分为四种状态:启动、追赶、流复制、备份(第十章中backup_start与backup_stop之间的备份整个数据库集簇快照的过程)
当备库停机后,pg通过复制槽来保留主库中未被流复制到备库的WAL文件,防止WAL段文件被回收(不能从归档日志中读取吗?)。在备库启动后,再继续之前的备份。
2.流复制工作流程
- 主库将用户操作与数据写入wal段文件,并向同步复制的备库中发送WAL段文件,并等待锁释放。
- 备库wal接收进程接收到数据,并使用后端进程写入WAL段文件。返回ack,如果主库的同步提交参数为remote_write,则锁在这一步释放,主库可以继续执行其他事务,否则等待下一步。
- 刷新wal段文件,并返回ack(刷新wal段文件可以保证数据已从缓存中写完,就相当于后端给前端发的东西,最后需要flash一样),如果主库的同步提交参数为on,则锁在这一步释放,主库可以继续执行其他事务。
- 备库的“启动进程”重放wal段文件中的数据。
上面的两个ack包含:已写入最新wal数据的LSN位置、已刷新最新wal数据的LSN位置、启动进程已重放最新wal数据的LSN位置、时间戳。
此外,备库会向主库发送心跳ack,告诉主库自己还活着。
3.故障辨别与处理
当主库wal发送进程与备库的wal接收进程连接中断时,判定备库故障
当主库与备库之间tcp端口数据写入失败时,判定备库故障
当备库在timeout设置的时间内没有返回数据时,判定备库故障。
“同步_备库_名称”配置参数中列出的备库名称优先级依次为1、2、3……,不在此配置参数中的其他备库为异步复制(优先级为0)。
主库需要等待以保证接收到同步复制的主备库的ack回复(优先级为1),在等待期间会停止所有事务的执行,而接收到主备的ack后,不会管其他备库(包括异步的)是否完成wal刷新或者是否故障,就会释放锁;对于其他优先级更低的备库(优先级≥2),主库即使接收到它的ack回复,也会继续等待主备库的ack。
当主库故障时,主备库会接管主库;当主备库故障时,主库采用优先级第二高的备库作为主备库,所以多设几台备库可增加系统可用性。如果没有其他备库了,则可以使用手动设置的方式将同步复制改为异步复制,避免主库一直等着。