磁盘占用高生产故障复盘总结

最新推荐文章于 2023-12-03 00:04:08 发布

辉度

最新推荐文章于 2023-12-03 00:04:08 发布

阅读量1.4k

点赞数

分类专栏： DEBUG

本文链接：https://blog.csdn.net/a17816876003/article/details/117672798

版权

DEBUG 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

生产故障复盘总结

故障发现

在2021年5月28日(上线次日)清晨6点,收到监控告警,磁盘已经达到90%使用率。

故障定位

排查磁盘大文件,占用率大的文件夹。
- 通过命令df -h 确定挂载根目录的文件夹占用率过高。
- 通过命令du -h 以及du -sh ,在应用用户xxxx拥有写权限的*/home/cloud* 以及*/home/logs* 中查看占用，发现用于存放xxl-job日志的文件夹占用很大。其中从5.21日开始，每天的日志磁盘占用有7GB，每个日期文件夹下，日志文件有2万多个。
查看日志

可以发现，即使是5.21日的日志，其仍然会被继续在5.28追加日志，日志内容如下：
```
<br>------- xxl-job callback fail, callbackResult:ReturnT [code=500], msg=xxl-rpc remoting fail, StatusCode(413) invalid. for url:xxx
```
判断xxl-job出现了问题，服务端调度中心在处理执行器回调时抛出异常。
查看调度中心日志

发现调度记录是一秒一次，和原先的配置不同，点开任务配置查看，任务执行周期的确发生了改变，修改者并不明确。

尝试修复

将执行周期配置从一秒一次更改回半小时一次。

修复失败，原先一直在新增日志的文件继续在刷日志，磁盘占用率继续快速提升。
申请操作权限的账号后，删除日志文件。

修复失败，会继续追加。
在xxl-job管理台中，手动中止进行中任务，并将任务阻塞处理策略从“单机串行”修改为“丢弃后续调度”。

有3000多条任务，无法手动批量中止。暂时放弃该方案的尝试。
根据错误提示，判断错误发生在执行器回调调度中心的过程，且发现xxl-job日志目录中还有一个callbackLog文件夹，其大小约为1.8 GB。将其删除，并在调度中心-调度日志-清理中，将全部日志数据全部清理。

完成修复，日志不再新增。

追踪原因

从源码角度追踪问题，在xxl-job v2.2.0中，回调部分如下：

// com.xxl.job.core.thread.TriggerCallbackThread#doCallback
    /**
     * do callback, will retry if error
     * @param callbackParamList
     */
    private void doCallback(List<HandleCallbackParam> callbackParamList){
        boolean callbackRet = false;
        // callback, will retry if error
        for (AdminBiz adminBiz: XxlJobExecutor.getAdminBizList()) {
            try {
                ReturnT<String> callbackResult = adminBiz.callback(callbackParamList);
                if (callbackResult!=null && ReturnT.SUCCESS_CODE == callbackResult.getCode()) {
                    callbackLog(callbackParamList, "<br>----------- xxl-job job callback finish.");
                    callbackRet = true;
                    break;
                } else {
                    callbackLog(callbackParamList, "<br>----------- xxl-job job callback fail, callbackResult:" + callbackResult);
                }
            } catch (Exception e) {
                callbackLog(callbackParamList, "<br>----------- xxl-job job callback error, errorMsg:" + e.getMessage());
            }
        }
        if (!callbackRet) {
            appendFailCallbackFile(callbackParamList);
        }
    }

当回调任务失败时，就会一直重试，且不会停。

从代码中可以看到，下面这行代码输出的是根本原因：

callbackLog(callbackParamList, "<br>----------- xxl-job job callback fail, callbackResult:" + callbackResult);

继续查找其RPC调用失败日志：

// com.xxl.job.core.util.XxlJobRemotingUtil#postBody
            // valid StatusCode
            int statusCode = connection.getResponseCode();
            if (statusCode != 200) {
                return new ReturnT<String>(ReturnT.FAIL_CODE, "xxl-rpc remoting fail, StatusCode("+ statusCode +") invalid. for url : " + url);
            }

根据HTTP CODE 413 定义可知，是上传的报文过大导致的。结合callbackLog文件的大小可知，的确是超过了限制。因此出现循环重试失败，并且打印日志的问题！

总结经验

xxl-job作为开源工程，其活跃度已经较低，且在issue中存留较多问题，生产使用需谨慎。
xxl-job任务配置时弄清任务阻塞处理策略，尽量不要使用单机串行。
xxl-job上线后，用户密码上收，谨防他人错误修改。

辉度

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
磁盘占用高生产故障复盘总结

生产故障复盘总结故障发现在2021年5月28日(上线次日)清晨6点,收到监控告警,磁盘已经达到90%使用率。故障定位排查磁盘大文件,占用率大的文件夹。通过命令df -h 确定挂载根目录的文件夹占用率过高。通过命令du -h 以及du -sh ,在应用用户xxxx拥有写权限的*/home/cloud* 以及*/home/logs* 中查看占用，发现用于存放xxl-job日志的文件夹占用很大。其中从5.21日开始，每天的日志磁盘占用有7GB，每个日期文件夹下，日志文件有2万多个。查看日
复制链接

扫一扫

专栏目录