MongoDB Secondary同步慢问题分析

最新推荐文章于 2024-05-28 18:18:14 发布

lijingkuan

最新推荐文章于 2024-05-28 18:18:14 发布

阅读量1.3k

点赞数

分类专栏： mongodb 文章标签： mongodb

mongodb 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

问题背景

最近生产环境出现多次Primary写入QPS太高，导致Seconary的同步无法跟上的问题（Secondary上的最新oplog时间戳比Primary上最旧oplog时间戳小），使得Secondary变成RECOVERING状态，这时需要人工介入处理，向Secondary发送resync命令，让Secondary重新全量同步一次。

同步过程

下图是MongoDB数据同步的流程
这里写图片描述

Primary上的写入会记录oplog，存储到一个固定大小的 capped collection 里，Secondary主动从Primary上拉取oplog并重放应用到自身，以保持数据与Primary节点上一致。

initial sync

新节点加入（或者主动向Secondary发送resync）时，Secondary会先进行一次initial sync，即全量同步，遍历Primary上的所有DB的所有集合，将数据拷贝到自身节点，然后读取『全量同步开始到结束时间段内』的oplog并重放。全量同步不是本文讨论的重点，将不作过多的介绍。

tailing oplog

全量同步结束后，Secondary就开始从结束时间点建立tailable cursor，不断的从同步源拉取oplog并重放应用到自身，这个过程并不是由一个线程来完成的，mongodb为了提升同步效率，将拉取oplog以及重放oplog分到了不同的线程来执行。

producer thread，这个线程不断的从同步源上拉取oplog，并加入到一个BlockQueue的队列里保存着，BlockQueue最大存储240MB的oplog数据，当超过这个阈值时，就必须等到oplog被replBatcher消费掉才能继续拉取。
replBatcher thread，这个线程负责逐个从producer thread的队列里取出oplog，并放到自己维护的队列里，这个队列最多允许5000个元素，并且元素总大小不超过512MB，当队列满了时，就需要等待oplogApplication消费掉。
oplogApplication会取出replBatch thread当前队列的所有元素，并将元素根据docId（如果存储引擎不支持文档锁，则根据集合名称）分散到不同的replWriter线程，replWriter线程将所有的oplog应用到自身；等待所有oplog都应用完毕，oplogApplication线程将所有的oplog顺序写入到local.oplog.rs集合。

producer的buffer和apply线程的统计信息都可以通过db.serverStatus().metrics.repl来查询到，在测试过程中，向Primary模拟约10000 qps的写入，观察Secondary上的同步，写入速率远小于Primary，大致只有3000左右的qps，同时观察到 producer的buffer很快就达到饱和，可以判断出oplog重放的线程跟不上。

默认情况下，Secondary采用16个replWriter线程来重放oplog，可通过启动时设置replWriterThreadCount参数来定制线程数，当提升线程数到32时，同步的情况大大改观，主备写入的qps基本持平，主备上数据同步的延时控制在1s以内，进一步验证了上述结论。

改进思路

如果因Primary上的写入qps很高，经常出现Secondary同步无法追上的问题，可以考虑以下改进思路

配置更高的replWriterThreadCount，Secondary上加速oplog重放，代价是更高的内存开销
使用更大的oplog，可按照官方教程修改oplog的大小，阿里云MongoDB数据库增加了patch，能做到在线修改oplog的大小。
将writeOpsToOplog步骤分散到多个replWriter线程来并发执行，这个是官方目前在考虑的策略之一，参考 Secondaries unable to keep up with primary under WiredTiger

参考资料

capped collection
SERVER-18908
修改oplog的大小
 阿里云MongoDB数据库

来自： http://blog.yunnotes.net/index.php/mongodb-scondary-cannot-catchup/

lijingkuan

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MongoDB Secondary同步慢问题分析

问题背景最近生产环境出现多次Primary写入QPS太高，导致Seconary的同步无法跟上的问题（Secondary上的最新oplog时间戳比Primary上最旧oplog时间戳小），使得Secondary变成RECOVERING状态，这时需要人工介入处理，向Secondary发送resync命令，让Secondary重新全量同步一次。同步过程下图是MongoDB数据同步的流程 Primary上
复制链接

扫一扫

专栏目录