【最新】k8s中kubeflow(v1.0)部署全过程+踩坑全集(图文)

本文详细介绍了在k8s上部署Kubeflow v1.0的全过程,包括环境要求、部署步骤和常见问题的解决方法。在部署过程中,特别强调了因网络限制和镜像问题所遇到的挑战,如使用阿里云构建拉取镜像的解决方案。此外,还分享了ksonnet停用导致的yaml文件问题和Segementation fault错误的排查思路。
摘要由CSDN通过智能技术生成

简述

Kubeflow是的机器学习工具包。Kubeflow是运行在K8S之上的一套技术栈,这套技术栈包含了很多组件,组件之间的关系比较松散,我们可以配合起来用,也可以单独用其中的一部分
在这里插入图片描述
Kubeflow提供了一大堆组件,涵盖了机器学习的方方面面

最主要的是以下几个

Operator:是针对不同的机器学习框架提供资源调度和分布式训练的能力(TF-Operator,PyTorch-Operator,Caffe2-Operator,MPI-Operator,MXNet-Operator);
Pipelines:是一个基于Argo实现了面向机器学习场景的流水线项目,提供机器学习流程的创建、编排调度和管理,还提供了一个Web UI。
Katib:是基于各个Operator实现的超参数搜索和简单的模型结构搜索的系统,支持并行搜索和分布式训练等。超参优化在实际的工作中还没有被大规模的应用,所以这部分的技术还需要一些时间来成熟;
Serving支持部署各个框架训练好的模型的服务化部署和离线预测。Kubeflow提供基于TFServing,KFServing,Seldon等好几种方案。由于机器学习框架很多,算法模型也各种各样。工业界一直缺少一种能真正统一的部署框架和方案。这方面Kubeflow也仅仅是把常见的都集成了进来,但是并没有做更多的抽象和统一

部署环境及要求

注意之前有很多文章都提到了使用ksonnet安装kubeflow,但是目前ksonnet即将停用,所以会出现yaml文件不支持的情况,这里的部署按照的是官方文档使用kfctl_k8s_istio的Kubeflow部署https://www.kubeflow.org/docs/started/k8s/kfctl-k8s-istio/
k8s version :1.14.6
保证一台工作节点 :4C
16G Memory
50G HD
这里用到的是阿里云服务器,建议使用云服务器,保证每个服务器都符合上述标准
下面开始正式部署,前提是k8s已搭建完毕,dns正常

部署

1.下载kfctl包和yaml文件

1.wegt https://github.com/kubeflow/kfctl/releases/tag/v1.0.2  这里建议翻墙下载到本地再上传
2.下载源码包(任选其一,将文件下载到/root/v1.0.2.tar.gz)
    wget https://github.com/kubeflow/manifests/archive/v1.0.2.tar.gz
    wget https://github.com/kubeflow/kfctl/archive/v1.0.2.tar.gz
3.下载 yaml 文件
   wget https://raw.githubusercontent.com/kubeflow/manifests/v1.0-branch/kfdef/kfctl_k8s_istio.v1.0.2.yaml
4.修改 kfctl_k8s_istio.v1.0.2.yaml 内容 
将 https://github.com/kubeflow/manifests/archive/v1.0.2.tar.gz 改为 file:///root
评论 18
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值