Kubeflow使用Kubernetes进行机器学习
Kubeflow是Google推出的基于kubernetes环境下的机器学习组件,通过Kubeflow可以实现对TFJob等资源类型定义,可以像部署应用一样完成在TFJob分布式训练模型的过程。最初的设计是将Kubernetes和Tensorflow结合实现对Tensorflow分布式训练的支持。但是仅仅实现对Tensorflow的支持还是远远不够的,Kubeflow
社区又陆续对各种深度学习框架进行支持,例如:MXNet
, Caffee
, PyTorch
等。使得机器学习算法同学只需关心算法实现,而后续的模型训练和服务上线都交给平台来做,解放算法同学使其专做自己擅长的事儿。
在继续介绍Kubeflow
之前, 先简单介绍下真正的机器学习模型服务上线都需要经历哪些阶段,如下图所示:
注意:上图的每种颜色代表对一个阶段的处理
从上图可以看出一个机器学习模型上线对外提供服务要经过:数据清洗验证
,数据集切分
, 训练
,构建验证模型
, 大规模训练
,模型导出
,模型服务上线
, 日志监控
等阶段。Tensorflow 等计算框架解决了最核心的部分问题,但是距离生产化,产品化,以及企业级机器学习项目开发,还有一段距离。比如: 数据收集
, 数据清洗
, 特征提取
, 计算资源管理
, 模型服务
, 配置管理
, 存储
, 监控
, 日志
等等。
好了机器学习服务上线的基本流程介绍之后,接下来继续介绍Kubeflow.
Kubeflow核心组件介绍
- jupyter 多租户NoteBook服务
- Tensorflow PyTorch MPI MXnet Chainer 当前主要支持的机器学习引擎
- Seldon 提供在Kubernetes上对机器学习模型的部署
- TF-Serving 提供对Tensorflow模型的在线部署,支持版本控制及无需停止线上服务,切换模型等功能
- Argo 基于Kubernetes的工作流引擎
- Ambassador 对外提供统一服务的网关(API Gateway)
- Istio 提供微服务的管理,Telemetry收集
- Ksonnet Kubeflow使用ksonnet来向kubernetes集群部署需要的k8s资源
而Kubeflow利用Kubernetes的优势:
- 原生的资源隔离
- 集群化自动化管理
- 计算资源(CPU/GPU)自动调度
- 对多种分布式存储的支持
- 集成较为成熟的监控,告警
将机器学习各个阶段涉及的组件已微服务的方式进行组合并已容器化的方式进行部署,提供整个流程各个系统的高可用及方便的进行扩展。