磁盘占用高生产故障复盘总结

生产故障复盘总结

故障发现

在2021年5月28日(上线次日)清晨6点,收到监控告警,磁盘已经达到90%使用率。

故障定位

  1. 排查磁盘大文件,占用率大的文件夹。

    • 通过命令df -h 确定挂载根目录的文件夹占用率过高。
    • 通过命令du -h 以及du -sh ,在应用用户xxxx拥有写权限的*/home/cloud* 以及*/home/logs* 中查看占用,发现用于存放xxl-job日志的文件夹占用很大。其中从5.21日开始,每天的日志磁盘占用有7GB,每个日期文件夹下,日志文件有2万多个。
  2. 查看日志

    可以发现,即使是5.21日的日志,其仍然会被继续在5.28追加日志,日志内容如下:

    <br>------- xxl-job callback fail, callbackResult:ReturnT [code=500], msg=xxl-rpc remoting fail, StatusCode(413) invalid. for url:xxx
    

    判断xxl-job出现了问题,服务端调度中心在处理执行器回调时抛出异常。

  3. 查看调度中心日志

    发现调度记录是一秒一次,和原先的配置不同,点开任务配置查看,任务执行周期的确发生了改变,修改者并不明确。

尝试修复

  1. 将执行周期配置从一秒一次更改回半小时一次。

    修复失败,原先一直在新增日志的文件继续在刷日志,磁盘占用率继续快速提升。

  2. 申请操作权限的账号后,删除日志文件。

    修复失败,会继续追加。

  3. 在xxl-job管理台中,手动中止进行中任务,并将任务阻塞处理策略从“单机串行”修改为“丢弃后续调度”。

    有3000多条任务,无法手动批量中止。暂时放弃该方案的尝试。

  4. 根据错误提示,判断错误发生在执行器回调调度中心的过程,且发现xxl-job日志目录中还有一个callbackLog文件夹,其大小约为1.8 GB。将其删除,并在调度中心-调度日志-清理中,将全部日志数据全部清理。

    完成修复,日志不再新增。

追踪原因

从源码角度追踪问题,在xxl-job v2.2.0中,回调部分如下:

// com.xxl.job.core.thread.TriggerCallbackThread#doCallback
    /**
     * do callback, will retry if error
     * @param callbackParamList
     */
    private void doCallback(List<HandleCallbackParam> callbackParamList){
        boolean callbackRet = false;
        // callback, will retry if error
        for (AdminBiz adminBiz: XxlJobExecutor.getAdminBizList()) {
            try {
                ReturnT<String> callbackResult = adminBiz.callback(callbackParamList);
                if (callbackResult!=null && ReturnT.SUCCESS_CODE == callbackResult.getCode()) {
                    callbackLog(callbackParamList, "<br>----------- xxl-job job callback finish.");
                    callbackRet = true;
                    break;
                } else {
                    callbackLog(callbackParamList, "<br>----------- xxl-job job callback fail, callbackResult:" + callbackResult);
                }
            } catch (Exception e) {
                callbackLog(callbackParamList, "<br>----------- xxl-job job callback error, errorMsg:" + e.getMessage());
            }
        }
        if (!callbackRet) {
            appendFailCallbackFile(callbackParamList);
        }
    }

当回调任务失败时,就会一直重试,且不会停。

从代码中可以看到,下面这行代码输出的是根本原因:

callbackLog(callbackParamList, "<br>----------- xxl-job job callback fail, callbackResult:" + callbackResult);

继续查找其RPC调用失败日志:

// com.xxl.job.core.util.XxlJobRemotingUtil#postBody
            // valid StatusCode
            int statusCode = connection.getResponseCode();
            if (statusCode != 200) {
                return new ReturnT<String>(ReturnT.FAIL_CODE, "xxl-rpc remoting fail, StatusCode("+ statusCode +") invalid. for url : " + url);
            }

根据HTTP CODE 413 定义可知,是上传的报文过大导致的。结合callbackLog文件的大小可知,的确是超过了限制。因此出现循环重试失败,并且打印日志的问题!

总结经验

  1. xxl-job作为开源工程,其活跃度已经较低,且在issue中存留较多问题,生产使用需谨慎。
  2. xxl-job任务配置时弄清任务阻塞处理策略,尽量不要使用单机串行。
  3. xxl-job上线后,用户密码上收,谨防他人错误修改。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值