本教程将解释如何使用单个或多个配置中的AMD GPU设置用于训练的神经网络环境。
在软件方面:我们将使用Docker,在ROCm内核之上运行Keras(Tensorflow v1.12.0作为后端)。

要安装和部署ROCm,需要特定的硬件/软件配置。
硬件要求
官方文档(ROCm v2.1)建议使用以下硬件解决方案。
支持的CPU
支持PCIe Gen3 + PCIe Atomics的CPU有:
- AMD Ryzen CPU;
- AMD Ryzen APU中的CPU;
- AMD Ryzen Threadripper CPU
- AMD EPYC CPU;
- Intel Xeon E7 v3或更新的CPU;
- Intel Xeon E5 v3或更新的CPU;
- Intel Xeon E3 v3或更新的CPU;
- Intel Core i7 v4(i7-4xxx),Core i5 v4(i5-4xxx),Core i3 v4(i5-4xxx)或更新的CPU(即Haswell系列或更新版本)。
- 一些Ivy Bridge-E系统
支持的GPU
ROCm正式支持使用以下芯片的AMD GPU:
- GFX8 GPU
- “斐济”芯片,如AMD Radeon R9 Fury X和Radeon Instinct MI8
- “Polaris 10”芯片,例如AMD Radeon RX 480/580和Radeon Instinct MI6
- “Polaris 11”芯片,例如AMD Radeon RX 470/570和Radeon Pro WX 4100
- “Polaris 12”芯片,例如AMD Radeon RX 550和Radeon RX 540
- GFX9 GPU
- “Vega 10”芯片,例如AMD Radeon RX Vega 64和Radeon Instinct MI25
- “Vega 7nm”芯片(Radeon Instinct MI50,Radeon VII)
软件要求
在软件方面,仅在基于Linux的系统中支持当前版本的ROCm(v2.1)。
ROCm 2.1.x平台支持以下操作系统:
- Ubuntu 16.04.x和18.04.x(16.04.3及更高版本或内核4.13及更高版本)
- CentOS 7.4,7.5和7.6(使用devtoolset-7 runtime支持)
- RHEL 7.4,7.5和7.6(使用devtoolset-7 runtime支持)
测试设置
硬件
- CPU:Intel Xeon E5-2630L
- RAM:2 x 8 GB
- 主板:微星X99A Krait版
- GPU:2 x RX480 8GB + 1 x RX580 4GB
- SSD:三星850 Evo(256 GB)
- HDD:WDC 1TB
软件
- 操作系统:Ubuntu 18.04 LTS
ROCm安装
为了使一切正常工作,建议在新安装的操作系统中启动安装过程。以下步骤指的是ubuntu1804 LTS操作系统,其他操作系统请参考官方文档。
第一步是安装ROCm内核和依赖项:
更新您的系统
打开一个新终端 CTRL + ALT + T
sudo apt updatesudo apt dist-upgradesudo apt install libnuma-devsudo reboot
添加ROCm apt repository
要下载并安装ROCm堆栈,需要添加相关的repositories:
wget -qO - http://repo.radeon.com/rocm/apt/debian/rocm.gpg.key | sudo apt-key add -echo 'deb [arch=amd64] http://repo.radeon.com/rocm/apt/debian/ xenial main' | sudo tee /etc/apt/sources.list.d/rocm.list

安装ROCm
现在需要更新apt repository列表并安装rocm-dkms元数据包:
sudo apt updatesudo apt install rocm-dkms
设置权限
官方文档建议创建一个新video组,以便使用当前用户访问GPU资源。
首先,检查系统中的组,使用:
gro