rocketmq报错的问题排查和记录 RemotingTooMuchRequestException

最新推荐文章于 2024-02-04 12:27:16 发布

烤鸭的世界我们不懂

最新推荐文章于 2024-02-04 12:27:16 发布

阅读量4.2k

点赞数 1

分类专栏：中间件运维文章标签： java-rocketmq rocketmq java

本文链接：https://blog.csdn.net/Angry_Mills/article/details/128689499

版权

中间件同时被 2 个专栏收录

23 篇文章 2 订阅

订阅专栏

运维

22 篇文章 0 订阅

订阅专栏

大家好：

我是烤鸭。连续3天同一时间遇到rocketmq不可用。第一天持续1分钟，第二天持续10分钟，第三天持续40分钟。线上版本使用的4.9.2，以下源码均看的这个版本。

问题描述

12:00 左右，服务大量报错，报错日志主要是：

org.apache.rocketmq.remoting.exception.RemotingTooMuchRequestException: sendDefaultImpl call timeout

偶尔有几条：

org.apache.rocketmq.client.exception.MQBrokerException: CODE: 2  DESC: [PCBUSY_CLEAN_QUEUE]broker busy, start flow control for a while, period in queue: 1481ms, size of queue: 33

org.apache.rocketmq.client.exception.MQClientException: No route info of this topic:xxxx

日志分析&原因猜想

排除网络和业务服务问题

首先我们要排除网络原因或者我们本地服务配置的问题。

流量没有增长，rocketmq的整体QPS也很低，不可能是网上说的几万QPS导致服务刷盘慢导致的。

第一天出问题的时候就让运维把rocketmq的日志拉下来看了，由于rocketmq集群是用容器刚搭的，很多监控都没有。

日志断点认定broker问题

只能通过日志猜，发现broker是在短时间内停摆。

watermark.log中的日志正常应该每秒连续输出的，现在出现了断点。

2023-01-11 12:00:01 - [WATERMARK] Pull Queue Size: 0 SlowTimeMills: 0
2023-01-11 12:00:01 - [WATERMARK] Query Queue Size: 0 SlowTimeMills: 0
2023-01-11 12:00:01 - [WATERMARK] Transaction Queue Size: 0 SlowTimeMills: 0
2023-01-11 12:00:12 - [WATERMARK] Send Queue Size: 0 SlowTimeMills: 0
2023-01-11 12:00:12 - [WATERMARK] Pull Queue Size: 0 SlowTimeMills: 0
2023-01-11 12:00:12 - [WATERMARK] Query Queue Size: 0 SlowTimeMills: 0

再根据 PCBUSY_CLEAN_QUEUE 看下 DefaultMessageStore.java 源码：

osPageCacheBusyTimeOutMills = 8000

这个配置是刷盘的超时时间，默认1s，我们配置的是8s。记录的上一次commitlog的刷盘时间，每10ms检查1次，如果间隔时间超过设置这个值的话，isOSPageCacheBusy 的时候才会抛出这个异常。

private void cleanExpiredRequest() {
    while (this.brokerController.getMessageStore().isOSPageCacheBusy()) {
        try {
            if (!this.brokerController.getSendThreadPoolQueue().isEmpty()) {
                final Runnable runnable = this.brokerController.getSendThreadPoolQueue().poll(0, TimeUnit.SECONDS);
                if (null == runnable) {
                    break;
                }

                final RequestTask rt = castRunnable(runnable);
                rt.returnResponse(RemotingSysResponseCode.SYSTEM_BUSY, String.format("[PCBUSY_CLEAN_QUEUE]broker busy, start flow control for a while, period in queue: %sms, size of queue: %d", System.currentTimeMillis() - rt.getCreateTimestamp(), this.brokerController.getSendThreadPoolQueue().size()));
            } else {
                break;
            }
        } catch (Throwable ignored) {
        }
    }

也猜想过是不是服务器时间变动导致的，不过立刻被否定了，因为持续了数分钟（中间断断续续），不是一瞬间的事。

如果服务器时间同步后拨，那应该只报一段时间。而且服务器的时间有监控，并没发现问题。

罪魁祸首

12点肯定执行了什么，触发了broker的宕机而且发生了主从切换。不过第三天主从切换后仍然不可用，持续近1小时才恢复。

看日志发现 DLedgerCleanSpaceService 这个线程执行，Flush data cost 耗时特别长。

2023-01-11 12:00:00 INFO DLedgerCleanSpaceService - unmap file[REF:0] /home/rocketmq/store/dledger-n2/data/xxxxxxxxxxxx OK
2023-01-11 12:00:00 INFO DLedgerCleanSpaceService - close file channel /home/rocketmq/store/dledger-n2/data/xxxxxxxxxxxxx OK
...省略部分日志,主从节点传输不同
INFO DLedgerFlushDataService - Flush data cost=12341 ms

我们看下这个配置，不配置默认的也是04，这个是删除之前的 commitlog的时间设置，本来设置的4点，不过容器时区问题，现在变成12点执行了。

deleteWhen=04

源码 DLedgerMmapFileStore.java：

两个flush耗时巨长。

@Override public void doWork() {
    try {
        long start = System.currentTimeMillis();
        DLedgerMmapFileStore.this.dataFileList.flush(0);
        DLedgerMmapFileStore.this.indexFileList.flush(0);
        if (DLedgerUtils.elapsed(start) > 500) {
            logger.info("Flush data cost={} ms", DLedgerUtils.elapsed(start));
        }

        if (DLedgerUtils.elapsed(lastCheckPointTimeMs) > dLedgerConfig.getCheckPointInterval()) {
            persistCheckPoint();
            lastCheckPointTimeMs = System.currentTimeMillis();
        }

        waitForRunning(dLedgerConfig.getFlushFileInterval());
    } catch (Throwable t) {
        logger.info("Error in {}", getName(), t);
        DLedgerUtils.sleep(200);
    }
}

实景复盘

第一天出事的时候，查了一天，监控没有，也不太好定位问题，还以为官方有什么bug，而且只持续了1分钟，有点掉以轻心了。

等到第二天出事的时候，运维反馈发现网上类似情况，把配置修改完重启了，理论上增加了删除次数，应该不会报错了。

deleteWhen=01;04;07;10;13;17;19;22

第三天出事的时候，傻眼了，也终于找到问题了。

因为这时候来找运维的人不止我们一个部门，所有部署在容器的rocketmq集群都受影响了，这些集群共通点就是挂载的同一个外挂硬盘。再加上配置都是一样的，不一定哪个集群12点删除日志的时候把磁盘性能打满了，影响了其他集群。

这里还有一个问题：

本来容器集群就是新上的，使用的人并不多，QPS肯定不高，commitlog也不多。

就算同时触发删除，也不至于影响broker几十分钟。

运维给的解释是外挂磁盘的性能实在是太差了，500M文件删起来都费劲，离谱。

解决方案

因为之前部署的rocketmq集群都是用虚机部署的，本地的磁盘环境又都是相互隔离的，删除个几十G文件性能还是能保证的。

升级磁盘（既然知道磁盘性能，直接硬件先解决，不过没有解决隔离性问题）
更换虚机集群（问题都能解决，就是业务端需要重启，还要考虑服务丢失问题）
更换容器集群，分离集群挂载目录，升级磁盘（同上）

总结

这次的问题就是容器外挂磁盘的性能问题导致，其次还有多个集群共用一个磁盘目录也是问题。

公司新推出的组件不要着急尝试，之前推出的apisix网关也是，不少人反馈接入之后有问题。

除非有KPI要求，其他还是稳定为主。尤其是新搞的这种，连监控都不全的，真的太危险了。

一出问题，运维就说就是没有错误日志，是不是网络问题或者服务配置问题。

太盲目扩张也不好，还是稳扎稳打做基建更重要。

参考文章

https://www.cnblogs.com/dingwpmz/p/12104702.html

滴滴出行基于RocketMQ构建企业级消息队列服务的实践_架构_江海挺_InfoQ精选文章

https://www.luckycxy.com/articles/2018/05/13/1643729483089.html

烤鸭的世界我们不懂

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
rocketmq报错的问题排查和记录 RemotingTooMuchRequestException

连续3天同一时间遇到rocketmq不可用。第一天持续1分钟，第二天持续10分钟，第三天持续40分钟。线上版本使用的4.9.2，以下源码均看的这个版本。
复制链接

扫一扫