Fabric for Deep Learning (FfDL) 使用教程

尤迅兰Livia

于 2024-08-27 07:43:21 发布

阅读量902

点赞数 24

本文链接：https://blog.csdn.net/gitblog_01105/article/details/141581025

版权

Fabric for Deep Learning (FfDL) 使用教程

FfDLFabric for Deep Learning (FfDL, pronounced fiddle) is a Deep Learning Platform offering TensorFlow, Caffe, PyTorch etc. as a Service on Kubernetes项目地址:https://gitcode.com/gh_mirrors/ff/FfDL

项目介绍

Fabric for Deep Learning (FfDL) 是一个深度学习平台，提供 TensorFlow、Caffe、PyTorch 等框架作为 Kubernetes 上的服务。FfDL 是一个操作系统级别的“fabric”，用于深度学习的框架无关训练、分布式硬件上的深度学习模型训练、开放的深度学习 API 以及在私有或公有云上运行深度学习托管服务。

项目快速启动

环境准备

在开始之前，请确保您已经安装了以下工具：

kubectl: Kubernetes 命令行接口
helm: Kubernetes 包管理器
docker: Docker 命令行接口
S3 CLI: 对象存储的命令行接口

部署 FfDL 平台

如果您已经在机器上安装了 Kubeadm-DIND，可以使用以下命令部署 FfDL 平台：

export SHARED_VOLUME_STORAGE_CLASS=""
export NAMESPACE=default
/bin/s3_driver.sh  # 将 s3 驱动程序复制到每个 DIND 节点
helm install ibmcloud-object-storage-plugin --name ibmcloud-object-storage-plugin --repo https://ibm.github.io/FfDL/helm-charts --set namespace=$NAMESPACE cloud=false
helm install ffdl-helper --name ffdl-helper --repo https://ibm.github.io/FfDL/helm-charts --set namespace=$NAMESPACE shared_volume_storage_class=$SHARED_VOLUME_STORAGE_CLASS localstorage=true --wait
helm install ffdl-core --name ffdl-core --repo https://ibm.github.io/FfDL/helm-charts --set namespace=$NAMESPACE lcm shared_volume_storage_class=$SHARED_VOLUME_STORAGE_CLASS --wait
# 转发必要的端口