在GPU实例上部署NGC环境

本文介绍如何在GPU云主机上部署NGC环境。

NVIDIA NGC 是用于深度学习、机器学习和HPC的GPU优化软件的中心,可提供容器、模型、模型脚本和行业解决方案,以便数据科学家、开发人员和研究人员可以专注于更快地构建解决方案和收集见解。

前提条件

图片4.png

  • GPU云主机配备弹性公网IP。

安装步骤

  1. 创建一台GPU云主机,操作方法请参见创建未配备GPU驱动的GPU云主机
  2. 安装GPU云主机驱动, 建议安装最新版本的操作系统驱动,操作方法请参见NVIDIA驱动安装指引
  3. 安装Docker和针对NVIDIA GPU的Docker Utility Engine,即nvidia-docker。

a. 在安装Docker新版本之前,请卸载所有的旧版本以及关联的依赖项。

sudo yum remove docker \
                  docker-client \
                  docker-client-latest \
                  docker-common \
                  docker-latest \
                  docker-latest-logrotate \
                  docker-logrotate \
                  docker-engine

图片5.png

b. 设置Docker 存储库。

sudo yum install -y yum-utils
sudo yum-config-manager --add-repo https://download.docker.com/linux/centos/docker-ce.repo

图片6.png

c. 安装Docker 引擎。

sudo yum install docker-ce docker-ce-cli containerd.io docker-buildx-plugin docker-compose-plugin

图片7.png

d. 启动docker。

sudo systemctl start docker

图片8.png

e. 安装nvidia-docker。

  • 设置存储库和 GPG 密钥。
distribution=$(. /etc/os-release;echo $ID$VERSION_ID) \
   && curl -s -L https://nvidia.github.io/libnvidia-container/$distribution/libnvidia-container.repo | sudo tee /etc/yum.repos.d/nvidia-container-toolkit.repo

图片9.png

  • 更新包列表后安装nvidia-container-toolkit包(和依赖项)。
sudo yum clean expire-cache
sudo yum install -y nvidia-container-toolkit

图片10.png

图片11.png

  • 配置Docker 守护程序以识别 NVIDIA 容器运行时。
sudo nvidia-ctk runtime configure --runtime=docker
sudo systemctl restart docker

图片12.png

  • 通过运行基本 CUDA 容器来测试工作设置。
sudo docker run --rm --runtime=nvidia --gpus all nvidia/cuda:11.6.2-base-ubuntu20.04 nvidia-smi

图片13.png

使用NVIDIA NGC

  1. 生成NGC的API key 。

a. 在NGC账号注册网站成功注册完NGC账号之后,需要生成账户的API key。

登录NGC页面,单击“账户名”,选择“Setup”,会进入Setup页面,然后单击“Get API Key”,进入生成API Key的页面。

图片14.png

图片15.png

图片16.png

b. 在API Key的页面,单击“Generate API Key”,进入确认对话框。

图片17.png

c. 在确认对话框,单击“Confirm”,页面会变为类似于下图所示的页面。

图片18.png

d. 在Password处会显示一连串密码,用户返回GPU实例的shell界面按照图中的操作即可。

$ docker login nvcr.io
Username: $oauthtoken
Password: 【输入生成的秘钥】

图片19.png

  1. 使用NGC中的镜像(以PyTorch为例)。

图片20.png

a. 进入NGC的CATALOG的目录部分,选择CONTAINERS分支,在Query查询中输入PyTorch,并单击“PyTorch”。

图片21.png

b. 单击“Get Container”,关于容器的拉取镜像的方法则会展示出来。

图片22.png

c. 按照上图中红色方框中的命令,可以获得最新版本的容器镜像,继续在GPU实例的命令行中输入以下命令。

$ docker pull nvcr.io/nvidia/pytorch:23.07-py3

图片23.png

这样,我们就可以用docker容器的方式去使用框架或软件产品了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值