开源组件
文章平均质量分 77
opensourse softwore
问君陈
技术驱动 迎难而上 随机应变
展开
-
k8s tfjob批调度-volcano调研
背景最近工作聚焦在机器学习这块,公司采用的kubeflow框架中的tfjob,利用tersorflow进行分布式训练。在训练过程中,发现在整体资源不足的情况下,由于k8s默认调度器调度的粒度是pod,但是tfjob可能对应多个pod, 多个tfjob可能会互相争抢资源而陷入资源死锁。于是开始调研解决方案,优先考虑开源的方案,最终发现2种解决方案:第一种是kube-batch及从此之上衍生的volcano, 可以作为k8s第二调度器,对机器学习、大数据等job类任务批调度做了特殊优化第二种是k8s原创 2021-04-10 11:19:25 · 1663 阅读 · 0 评论 -
prometheus-强大的监控框架
prometheus-强大的监控框架prometheus是当前监控k8s最常用的监控框架,并且grafana也支持prometheus搭建可视化监控prometheus组件prometheus架构图如下:prometheus serverprometheus server本身就是一个时间序列数据库,时间序列数据库就是prometheus每隔几秒就会对同一个指标重复查询其值,同一个指标会保存其历史时间段的值,这对于监控来说比较重要,监控需要展示历史阶段不同时间的值,所以叫时间序列数据库expo原创 2021-02-20 22:33:20 · 509 阅读 · 1 评论