k8s CronJobs导致的一次崩溃

最新推荐文章于 2024-08-21 15:43:27 发布

pushme_pli

最新推荐文章于 2024-08-21 15:43:27 发布

阅读量1.3k

点赞数

分类专栏： Cloud 文章标签： k8s cron job

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/pushme_pli/article/details/88734981

版权

Cloud 专栏收录该内容

14 篇文章 0 订阅

订阅专栏

最近在玩kubeflow/katib和kubeflow/pipeline 找了个例子, 具体流程是：

超参调优（Katib）-- train — serving

但是跑着跑着忽然脱了，cluster中多了数百个Error状态的pod，而且数量还在不断增加，这是要crash的节奏啊！

赶紧抓了一个pod describe看了看，发现这个：

  - apiVersion: batch/v1
    blockOwnerDeletion: true
    controller: true
    kind: Job

感情是个Job，这么有规律的增加不是有人在while true就是cronJob了，查了查资源，果然有几个cronJob再卖力的生产pod。

找到罪魁祸首就好办，看了看cronJob的定义：

      schedule: "*/1 * * * *"
      successfulJobsHistoryLimit: 0
      failedJobsHistoryLimit: 1

一分钟一个，但是已经设置了

successfulJobsHistoryLimit: 0

failedJobsHistoryLimit: 1

这两个属性的意思是说成功的Job pod全部会被删除，失败的pod只会保留一个，估计是为了让你查看错误原因。

但为啥我Error状态的pod都飙到上百了？

查了查google，这个锅果然得k8s背：

https://github.com/kubernetes/kubernetes/issues/53331

简单来说就是上面提到的两个配置支队pod state是Succeeded和Failed的pod起效，对其他状态如：Error并不加理会的，这就是pod大量堆积的原因。

不过是Error状态并不可怕，可怕的是Pending状态，也不理会啊。

这个问题在k8s v1.12仍然存在，当然据说可以通过在job上设置：activeDeadlineSeconds来解决，这个设置会让k8s在若干时间段之后把该pod删除掉，但是这个时间怎么设置，看起来也不是个完美的解决方案。

至于为啥我的pod都Error了，这是另外一个话题了。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

pushme_pli CSDN认证博客专家 CSDN认证企业博客

码龄13年

63: 原创

7万+: 周排名

39万+: 总排名

24万+: 访问

: 等级

2753: 积分

28: 粉丝

76: 获赞

54: 评论

70: 收藏

私信

关注

热门文章

分类专栏

前端 7篇
linux/shell 6篇
Javascript 1篇
web deployment 2篇
AI 4篇
MQ 3篇
JAVA 3篇
Cloud 14篇

最新评论

QPS和Burst，记录我的一次踩坑
人艰不拆_zmc: 比如我QPS设置为100， burst也设置为100.....。但如果是令牌桶，因为桶里本身有100个，在加上QPS也是100，那这200个就处理了这段话是不是不对
RPM -U 升级机制探索
wskqw2012: 导致在upgrade中调用了%preun，这个脚本会对现有的rpm进行一些破坏。执行%preun 的时候删除新文件中未覆盖的所有旧文件，怎么会破坏其他文件那？
RPM -U 升级机制探索
wskqw2012: 您好，基本策略中描述说 rpm 会对文件进行对比，如果相同就覆盖，如果不同这就采用新的。这样我安装包需要区分版本吗？对你后面遇到的疑问不理解
如何确定远端主机的snmp服务是否开启
Rock–: 十一年了
通过配置http proxy解决websocket不能连接的问题
西柚柠檬: 想问一下代理之后websocket使用的写法？谢谢

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。