postgresql 备库terminating connection due to conflict with recovery的报错

一、背景

terminating connection due to conflict with recovery

使用只读库时, 查询时偶尔可能会遇到这种报错. 具体是什么原因造成的?

二、分析

1、查询冲突次数

xxxx=> select * from pg_stat_database_conflicts ;

confl_snapshot 分析

standby有个wal replay进程在进行wal回放, 如果回放过程中有query和回放的内容发生了冲突, 那么wal回放会进行等待, 等多久呢? 最久决定于max_standby_streaming_delay参数.

当等待超过这个时间时, wal replay会cancel与之有冲突的所有query, 然后开始恢复, 并且必须要恢复到wal receive的位置和wal replay位置一致状态后才会重置max_standby_streaming_delay等待时间, 没有到达这个状态前, 所有与wal replay有冲突的query都会被直接cancel(不再有query执行窗口), 所以cancel query可能会很频繁的出现.

找到 standby节点的big query(甚至也可能是有snapshot的idle transaction), 分析big query是否可以优化变成small query。

三、解决方案

解决方案. 建议采用1、5, 副作用最小:

1、ro节点设置statement_timeout, 小于max_standby_streaming_delay, 不要让一个query堵塞一堆query。
副作用:
- 某些query可能会超时报错.

使用例子:

``` statement_timeout=5s lock_timeout=10s

psql postgresql://localhost:1921/postgres?options="-c statement_timeout%3D5s -c lock_timeout%3D10s" ```

2、区分大查询和小查询, 分开使用不同standby节点
如果有大查询, 和小查询分开, 不要放在同一台ro节点查询.
如果有大查询, 特别是人工发起的大查询, 不要和小查询混到一个ro节点查询.

3、设置更大的max_standby_streaming_delay参数, 让big query有更长的执行时间.
副作用:
- replay delay会变长, 从库的查询延迟变大.

4、修改ro节点参数hot_standby_feedback=on, 只要ro库有查询, 就会返回snapshot xid给主库, 主库的垃圾回收进程不会回收这个垃圾.
副作用:
- 当从库有big(long) query时, 主库IO暴增, 垃圾回收进程空转, 显示为表有垃圾, autovacuum发起扫描表垃圾, 但是回收不掉(因为从库依赖这些垃圾版本), 导致大量无用IO.
- 当从库有big(long) query时, 主库表膨胀, 因为某些时刻更多的垃圾无法被及时回收, 导致膨胀.

5、如果是standby本身资源问题导致delay, 那么建议查看standby节点的网络贷款、cpu、io能力是否存在瓶颈. 该加资源就加资源。

参考:PostgreSQL standby conflict replay分析和解决方案 - 墨天轮

### PostgreSQL 报错 `canceling statement due to conflict with recovery` 原因分析 当遇到错误提示 `ERROR: canceling statement due to conflict with recovery Detail: User query might have needed to see row versions that must be removed.` 时,这通常发生在热上。该错误表明用户的查询尝试访问某些数据行的旧版本,而这些版本正在被清理以完成恢复过程[^1]。 在PostgreSQL的流复制环境中,主服务器会将更改记录写入WAL(Write-Ahead Logging),并将其发送给用服务器用于同步更新。然而,在特定情况下,特别是长时间运行的事务或者频繁读取历史数据的操作可能会阻碍必要的清理工作,从而引发上述冲突警告[^2]。 对于此类问题的根本原因是由于机上的查询试图获取已被标记为可回收的数据版本,而这部分数据正处于移除过程中,因此无法满足查询需求而导致操作失败[^3]。 ### 解决方案建议 针对这一类由恢复冲突引起的报错情况,有几种方法可以帮助缓解或解决问题: #### 方法一:调整应用逻辑减少长事务 优化应用程序的设计模式来缩短事务周期长度,避免不必要的长时间持有锁资源。确保所有业务流程尽可能高效地处理完毕后再提交事务,这样可以降低与其他后台进程发生竞争的可能性。 #### 方法二:设置合适的参数控制最大保留期 可以通过修改postgresql.conf配置文件内的几个重要参数来管理wal_keep_segments、max_standby_streaming_delay等选项,适当增加允许的最大延迟时间和保存更多的预写日志段数,以便给予更多的时间窗口让赶上主的变化进度而不至于因为过早清除所需的历史信息造成查询中断[^4]。 ```sql -- 修改 postgresql.conf 文件中的相关参数 wal_keep_segments = 64 -- 单位为MB,默认值通常是较低的数值 max_standby_streaming_delay = '30s' -- 设置合理的等待超时时长 ``` #### 方法三:重启实例 如果条件允许的话,考虑定期重启从属副本实例,使得其能够快速追平上游源端点的状态变化,进而减小两者间差异带来的潜在风险。 以上措施均有助于改善因恢复期间产生的并发访问矛盾状况,提高系统的稳定性和可用性水平。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值