MongoDB 复制集从节点recovering重新初始化

检查发现MongoDB复制集从库状态为RECOVERING,后台日志显示[rsBackgroundSync] we are too stale to use xxx.xxx.xxx.xxx:27017 as a sync source,意思是当前从库的数据已经太陈旧了,无法从主库的oplog里找到对应后续日志,所以就无法推进从库的复制进度,导致从库一直处于RECOVERING的状态。
导致从库异常的原因是某天开发在主库导入了大量数据,导致主库oplog更新过快,从库复制速度跟不上,主库oplog里的内容从库还没同步就已经清理了,所以造成从库丢失了更新,永远也无法再继续同步主库数据。
这是恢复从库可以将从库重新初始化:
1.登陆从库,db.shutdownServer()关闭从库;
2.将从库dbpath对应的目录清空或MV改名,目的是得到一个空的dbpath,但建议采用MV的做法,以免不必要的数据误删;
3.重启从库,从库会自动重新全量同步,重新初始化期间使用rs.status()可以看到从库的stateStr为STARTUP2,初始化结束后会变回SECONDARY。

### 解决方案 当遇到 `not master and slaveOk=false` 错误时,通常是因为客户端尝试访问的是次级节点 (secondary node),而该操作未设置允许读取次级数据的选项。以下是详细的分析和解决方案: #### 1. **错误原因** 此错误表明当前连接的目标节点不是主节点(primary node),并且请求的操作不允许在次级节点上执行。默认情况下,MongoDB 驱动程序会将查询发送到主节点以确保一致性[^1]。 如果应用程序试图在一个非主节点上执行写入或其他仅限于主节点的操作,则会出现此类错误。此外,在某些场景下(例如复制集初始化期间),可能会短暂出现这种状态[^4]。 #### 2. **解决方法** ##### 方法一:修改读偏好(Read Preference) 可以通过调整驱动程序中的读偏好来解决问题。具体来说,可以显式指定允许从次级节点读取数据。这适用于那些不需要强一致性的只读查询。 对于大多数编程语言支持的 MongoDB 客户端库,都可以通过以下方式实现: ```go options := options.Client().ApplyURI("mongodb://your-replica-set-uri").SetReadPreference(readpref.SecondaryPreferred()) client, err := mongo.Connect(context.TODO(), options) if err != nil { log.Fatal(err) } defer func() { _ = client.Disconnect(context.TODO()) }() ``` 上述代码片段展示了如何使用 Go 语言中的 MongoDB Driver 设置读偏好为 SecondaryPreferred,这意味着优先从次级节点读取数据,但如果不可用则回退至主节点[^2]。 ##### 方法二:确认副本集配置正确无误 有时问题可能源于副本集本身的配置不当。因此建议重新验证副本集的状态是否正常工作。运行如下命令检查成员健康状况以及选举情况: ```bash rs.status() ``` 这条指令能够展示整个集群中各个节点的角色及其连通性详情。如果有任何异常发现——比如某个节点长期处于 STARTUP 或 RECOVERING 状态——那么就需要进一步排查网络或者存储层面是否存在瓶颈[^3]。 ##### 方法三:增加重试逻辑处理瞬态故障 由于在网络不稳定条件下可能发生短时间内的无法连接现象,适当引入指数退避算法配合固定次数上限的自动重试机制不失为一种稳健策略。下面给出 Python 版本的一个简单例子作为参考: ```python from pymongo.errors import AutoReconnect, ConnectionFailure import time def retry_mongodb_operation(func, *args, max_retries=5, initial_wait_time=0.5, backoff_factor=2, **kwargs): retries = 0 wait_time = initial_wait_time while True: try: result = func(*args, **kwargs) return result except (AutoReconnect, ConnectionFailure) as e: if retries >= max_retries: raise print(f"Retrying after failure ({e}). Retry count={retries}") time.sleep(wait_time) wait_time *= backoff_factor retries += 1 ``` 这段脚本定义了一个通用函数用于包裹任意可能导致断开连接的任务,并在其失败之后按照预设规则等待再重复尝试直到成功为止或达到最大限制停止。 --- ### 总结 综上所述,“Not Master And SlaveOK=False”的问题是关于 MongoDB 复制集中角色分配与权限控制方面的典型代表之一。通过对读偏好的合理设定、基础架构健全度的确保还有针对临时性事件设计良好的恢复流程这三个方面入手往往能有效缓解乃至彻底消除这类困扰。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值