rocketmq报错的问题排查和记录 RemotingTooMuchRequestException

  大家好:

    我是烤鸭。连续3天同一时间遇到rocketmq不可用。第一天持续1分钟,第二天持续10分钟,第三天持续40分钟。线上版本使用的4.9.2,以下源码均看的这个版本。

问题描述

12:00 左右,服务大量报错,报错日志主要是:

org.apache.rocketmq.remoting.exception.RemotingTooMuchRequestException: sendDefaultImpl call timeout

偶尔有几条:

org.apache.rocketmq.client.exception.MQBrokerException: CODE: 2  DESC: [PCBUSY_CLEAN_QUEUE]broker busy, start flow control for a while, period in queue: 1481ms, size of queue: 33
org.apache.rocketmq.client.exception.MQClientException: No route info of this topic:xxxx

日志分析&原因猜想

排除网络和业务服务问题

首先我们要排除网络原因或者我们本地服务配置的问题。

流量没有增长,rocketmq的整体QPS也很低,不可能是网上说的几万QPS导致服务刷盘慢导致的。

第一天出问题的时候就让运维把rocketmq的日志拉下来看了,由于rocketmq集群是用容器刚搭的,很多监控都没有。

日志断点认定broker问题

只能通过日志猜,发现broker是在短时间内停摆。

watermark.log中的日志正常应该每秒连续输出的,现在出现了断点。

2023-01-11 12:00:01 - [WATERMARK] Pull Queue Size: 0 SlowTimeMills: 0
2023-01-11 12:00:01 - [WATERMARK] Query Queue Size: 0 SlowTimeMills: 0
2023-01-11 12:00:01 - [WATERMARK] Transaction Queue Size: 0 SlowTimeMills: 0
2023-01-11 12:00:12 - [WATERMARK] Send Queue Size: 0 SlowTimeMills: 0
2023-01-11 12:00:12 - [WATERMARK] Pull Queue Size: 0 SlowTimeMills: 0
2023-01-11 12:00:12 - [WATERMARK] Query Queue Size: 0 SlowTimeMills: 0

再根据 PCBUSY_CLEAN_QUEUE 看下 DefaultMessageStore.java 源码:

osPageCacheBusyTimeOutMills = 8000

这个配置是刷盘的超时时间,默认1s,我们配置的是8s。记录的上一次commitlog的刷盘时间,每10ms检查1次,如果间隔时间超过设置这个值的话,isOSPageCacheBusy 的时候才会抛出这个异常。

private void cleanExpiredRequest() {
    while (this.brokerController.getMessageStore().isOSPageCacheBusy()) {
        try {
            if (!this.brokerController.getSendThreadPoolQueue().isEmpty()) {
                final Runnable runnable = this.brokerController.getSendThreadPoolQueue().poll(0, TimeUnit.SECONDS);
                if (null == runnable) {
                    break;
                }

                final RequestTask rt = castRunnable(runnable);
                rt.returnResponse(RemotingSysResponseCode.SYSTEM_BUSY, String.format("[PCBUSY_CLEAN_QUEUE]broker busy, start flow control for a while, period in queue: %sms, size of queue: %d", System.currentTimeMillis() - rt.getCreateTimestamp(), this.brokerController.getSendThreadPoolQueue().size()));
            } else {
                break;
            }
        } catch (Throwable ignored) {
        }
    }

也猜想过是不是服务器时间变动导致的,不过立刻被否定了,因为持续了数分钟(中间断断续续),不是一瞬间的事。

如果服务器时间同步后拨,那应该只报一段时间。而且服务器的时间有监控,并没发现问题。

罪魁祸首

12点肯定执行了什么,触发了broker的宕机而且发生了主从切换。不过第三天主从切换后仍然不可用,持续近1小时才恢复。

看日志发现 DLedgerCleanSpaceService 这个线程执行,Flush data cost 耗时特别长。

2023-01-11 12:00:00 INFO DLedgerCleanSpaceService - unmap file[REF:0] /home/rocketmq/store/dledger-n2/data/xxxxxxxxxxxx OK
2023-01-11 12:00:00 INFO DLedgerCleanSpaceService - close file channel /home/rocketmq/store/dledger-n2/data/xxxxxxxxxxxxx OK
...省略部分日志,主从节点传输不同
INFO DLedgerFlushDataService - Flush data cost=12341 ms

我们看下这个配置,不配置默认的也是04,这个是删除之前的 commitlog的时间设置,本来设置的4点,不过容器时区问题,现在变成12点执行了。

deleteWhen=04

源码 DLedgerMmapFileStore.java:

两个flush耗时巨长。

@Override public void doWork() {
    try {
        long start = System.currentTimeMillis();
        DLedgerMmapFileStore.this.dataFileList.flush(0);
        DLedgerMmapFileStore.this.indexFileList.flush(0);
        if (DLedgerUtils.elapsed(start) > 500) {
            logger.info("Flush data cost={} ms", DLedgerUtils.elapsed(start));
        }

        if (DLedgerUtils.elapsed(lastCheckPointTimeMs) > dLedgerConfig.getCheckPointInterval()) {
            persistCheckPoint();
            lastCheckPointTimeMs = System.currentTimeMillis();
        }

        waitForRunning(dLedgerConfig.getFlushFileInterval());
    } catch (Throwable t) {
        logger.info("Error in {}", getName(), t);
        DLedgerUtils.sleep(200);
    }
}

实景复盘

第一天出事的时候,查了一天,监控没有,也不太好定位问题,还以为官方有什么bug,而且只持续了1分钟,有点掉以轻心了。

等到第二天出事的时候,运维反馈发现网上类似情况,把配置修改完重启了,理论上增加了删除次数,应该不会报错了。

deleteWhen=01;04;07;10;13;17;19;22

第三天出事的时候,傻眼了,也终于找到问题了。

因为这时候来找运维的人不止我们一个部门,所有部署在容器的rocketmq集群都受影响了,这些集群共通点就是挂载的同一个外挂硬盘。再加上配置都是一样的,不一定哪个集群12点删除日志的时候把磁盘性能打满了,影响了其他集群。

这里还有一个问题:

本来容器集群就是新上的,使用的人并不多,QPS肯定不高,commitlog也不多。

就算同时触发删除,也不至于影响broker几十分钟。

运维给的解释是外挂磁盘的性能实在是太差了,500M文件删起来都费劲,离谱。

解决方案

因为之前部署的rocketmq集群都是用虚机部署的,本地的磁盘环境又都是相互隔离的,删除个几十G文件性能还是能保证的。

  • 升级磁盘(既然知道磁盘性能,直接硬件先解决,不过没有解决隔离性问题)
  • 更换虚机集群(问题都能解决,就是业务端需要重启,还要考虑服务丢失问题)
  • 更换容器集群,分离集群挂载目录,升级磁盘(同上)

总结

这次的问题就是容器外挂磁盘的性能问题导致,其次还有多个集群共用一个磁盘目录也是问题。

公司新推出的组件不要着急尝试,之前推出的apisix网关也是,不少人反馈接入之后有问题。

除非有KPI要求,其他还是稳定为主。尤其是新搞的这种,连监控都不全的,真的太危险了。

一出问题,运维就说就是没有错误日志,是不是网络问题或者服务配置问题。

太盲目扩张也不好,还是稳扎稳打做基建更重要。

参考文章

https://www.cnblogs.com/dingwpmz/p/12104702.html

滴滴出行基于RocketMQ构建企业级消息队列服务的实践_架构_江海挺_InfoQ精选文章

https://www.luckycxy.com/articles/2018/05/13/1643729483089.html

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

烤鸭的世界我们不懂

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值