![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Kubeflow
文章平均质量分 95
chenxy02
AI+云计算
展开
-
TrainingOperator--PyTorchJob实现机制分析
由Pytorch分布式训练(一)_chenxy02的博客-CSDN博客WORLD_SIZERANKMASTER_PORT和MASTER_ADDR的目的是告诉进程组中负责进程通信协调的核心进程的IP地址和端口。当然如果该进程就是核心进程,它会发现这就是自己。RANK参数是该进程的id,WORLD_SIZE是说明进程组中进程的个数。1、得手工在多个节点上启动多个 python脚本,配置不同的 rank2、如果是在K8S上起多个 pod 进行分布式训练 ,还得解决IP不确定的问题。原创 2023-06-30 16:09:54 · 1220 阅读 · 0 评论 -
Kubeflow--Pipeline及Argo实现原理速析
原文地址:KubeFlow-Pipeline及Argo实现原理速析_容器_华为云开发者社区_InfoQ精选文章摘要Argo是一个开源原生容器工作流引擎 用于在Kubernetes上开发和运行应用程序。Argo Workflow流程引擎,可以编排容器流程来执行业务逻辑,在20年4月进入CNCF孵化器组。KubeFlow的Pileline子项目,由Google开源,其全面依赖Argo作为底层实现,并增强持久层来补充流程管理能力,同时通过Python-SDK来简化流程的编写。Argo 流程转载 2022-05-10 11:27:49 · 1393 阅读 · 0 评论 -
Kubeflow--TFJob实现机制分析
前言:虽然Kubeflow提供了一大堆组件,涵盖了机器学习的方方面面,但模型训练肯定是Kubeflow最重要的功能。TFJob的本质KubeFlow针对各种各样的机器.原创 2022-04-18 09:22:41 · 1993 阅读 · 1 评论 -
TensorFlow的分布式训练和K8S
原文地址:炼丹师的工程修养之四: TensorFlow的分布式训练和K8S - 知乎1、分布式训练的基本原理无论是TensorFlow还是其他的几种机器学习框架,分布式训练的基本原理是相同的。大致可以从以下五个不同的角度来分类。并行模式 架构模式 同步范式 物理架构 通信技术1.1 并行模式通俗的讲,分布式计算就是通过分布式的多台机器,把原来的巨大的,复杂的问题拆成多个小的、简单的问题来解决。对于机器学习的训练任务,原来的“大”问题主要表现在两个方面。一是模型太大,我们需要把模..转载 2022-04-14 16:26:57 · 2090 阅读 · 0 评论 -
Kubeflow机器学习工具包-概述
参考网址:Kubeflow-K8S的机器学习工具包,太牛了! - 知乎什么是KuberflowKubeflow是Kubenetes的机器学习工具包。Kubeflow是运行在k8s之上的一套技术栈,这套技术栈包含了很多组件,组件之间的关系比较松散,我们可以配合起来用,也可以单独用其中的一部分。下图为Kuberflow官网上所展示的架构图:当我们开发和部署ML系统时,ML工作流程通常包括几个阶段。开发ML系统是一个反复的过程。我们需要评估ML工作流各个阶段的输出,并在必要时对模型和参数进行更转载 2022-03-14 13:20:21 · 959 阅读 · 0 评论 -
Kubeflow安装及代码架构解读
参考网址Installing Kubeflow | Kubeflow安装方式选用官方讲述了两种Kubeflow的安装方式,一种是使用打包发行版本,谷歌云、AWS等厂商的客户可以考虑此方式进行安装使用,应该非常方便。本文主要讲使用manifest(清单) 的方式进行Kubeflow的安装。怎么使用manifest从github上拉取仓库GitHub - kubeflow/manifests: A repository for Kustomize manifests然后照着这个.原创 2022-04-14 16:44:23 · 1876 阅读 · 0 评论