k8s CronJobs导致的一次崩溃

最近在玩kubeflow/katib和kubeflow/pipeline 找了个例子, 具体流程是:

超参调优(Katib)-- train — serving

但是跑着跑着忽然脱了,cluster中多了数百个Error状态的pod,而且数量还在不断增加,这是要crash的节奏啊!

赶紧抓了一个pod describe看了看,发现这个:

  - apiVersion: batch/v1
    blockOwnerDeletion: true
    controller: true
    kind: Job

感情是个Job,这么有规律的增加不是有人在while true就是cronJob了,查了查资源,果然有几个cronJob再卖力的生产pod。

找到罪魁祸首就好办,看了看cronJob的定义:

      schedule: "*/1 * * * *"
      successfulJobsHistoryLimit: 0
      failedJobsHistoryLimit: 1

一分钟一个,但是已经设置了

successfulJobsHistoryLimit: 0

failedJobsHistoryLimit: 1

这两个属性的意思是说成功的Job pod全部会被删除,失败的pod只会保留一个,估计是为了让你查看错误原因。

但为啥我Error状态的pod都飙到上百了?

查了查google,这个锅果然得k8s背:

https://github.com/kubernetes/kubernetes/issues/53331

简单来说就是上面提到的两个配置支队pod state是Succeeded和Failed的pod起效,对其他状态如:Error并不加理会的,这就是pod大量堆积的原因。

不过是Error状态并不可怕,可怕的是Pending状态,也不理会啊。

这个问题在k8s v1.12仍然存在,当然据说可以通过在job上设置:activeDeadlineSeconds来解决,这个设置会让k8s在若干时间段之后把该pod删除掉,但是这个时间怎么设置,看起来也不是个完美的解决方案。

至于为啥我的pod都Error了,这是另外一个话题了。

Kubernetes中的CronJob是一种用于周期性执行任务的机制。它主要用于定期运行特定的作业,如数据备份、定时报告、定时任务等。 CronJob是基于Unix中的cron表达式的,该表达式由五个字段组成:分、时、日、月、周几。通过这些字段的组合,可以实现对任务在不同时间间隔进行精确调度。在Kubernetes中,CronJob将每个字段的定义封装为一个对象,并使用Cron表达式将这些对象组合起来。 CronJob是由Kubernetes的控制平面负责执行的。当到达指定的时间时,控制平面将自动创建一个Job对象,并将其分发到合适的Worker节点上运行。Job对象的创建和管理完全由Kubernetes控制平面处理,对用户而言是透明的。 CronJob对象的定义包括了作业的调度规则和执行的任务。可以指定作业的运行时间、重试策略、并行性等属性。执行的任务可以是容器或命令行,可以是存储在镜像中的应用程序或是运行在Pod中的脚本。用户可以根据实际需求定义不同的任务。 除了基本的调度功能外,CronJob还提供了监控和日志功能,可以通过指定调度失败阈值和记录日志的级别来跟踪作业的状态和执行情况。这些信息对于定位问题、排查故障非常有帮助。 总之,Kubernetes的CronJob是一种非常强大和灵活的调度机制,可以满足周期性任务的需求。通过使用CronJob,用户可以方便地配置和管理定时任务,提高任务的可靠性和稳定性。同时,CronJob还提供了丰富的监控和日志功能,帮助用户更好地了解和管理任务的执行情况。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值