基于AMD-ROCm和tensorflow机器学习加速平台的部署方法

截至到发文时间,ROCm版本已经更新到V3.1.0。
官方文档地址:https://rocm-documentation.readthedocs.io/en/latest/Current_Release_Notes/Current-Release-Notes.html

新版本V3.1.0增加了AMD GPU版的SLURM,这是一个开源的大型计算结点集群的管理器和作业调度系统。同时增加了对Vega7nmGPU的适配。

本文的实践步骤基于ROCmV3.0,V3.1.0版本的安装步骤与其一样。
在安装之前不要安装AMD显卡驱动,否则会有错误。同样安装之后,也不需要AMD显卡驱动。

实验环境:

  • OS:Ubuntu 18.04.3LTS
  • 内核:5.3.0-40-generic

安装步骤如下:

1、更新软件源

sudo apt update

sudo apt dist-upgrade

sudo apt install libnuma-dev

sudo reboot

2、在系统中加入APT软件源

wget -q0 –http://repo.radeon.com/rocm/apt/debian/rocm.gpg.key |

sudo apt-key add -echo 'deb [arch=amd64] http://repo.radeon.com/rocm/apt/debian/ xenial main' |

sudo tee /etc/apt/sources.list.d/rocm.list

3、安装ROCm

sudo apt update

sudo apt install rocm-dkms

4、将现有用户加入videogroup,这样才可使用GPU资源。

sudo usermod -a -G video $LOGNAME

如果想在默认情况下,将所有将来添加的用户添加到videogroup。

echo 'ADD_EXTRA_GROUPS=1'
sudo tee -a /etc/adduser.conf

echo 'EXTRA_GROUPS=video'
sudo tee -a /etc/adduser.conf

5、到此系统ROCm环境已经基本安装完成,重启系统生效。

6、测试安装是否成功。

/opt/rocm/bin/rocminfo
/opt/rocm/opencl/bin/x86_64/clinfo

如果安装成功则返回系统相关信息;否则,报错。

另外,要执行ROCm的应用程序,还必须在系统上安装完整的ROCm驱动程序堆栈。

sudo apt update
sudo apt install rocm-dev

最后,在python环境便可以安装ROCm版本的tensorflow。

pip install tensorflow-rocm

之后可以获得最新版本的tensorflow,目前tensorflow可以适配V2.1.0。经过验证,ROCm版本的tensorflow最低支持V0.0.1。具体可以根据自己项目中的实际需要来配置。
详细可参考Pypi官方信息:https://pypi.org/project/tensorflow-rocm/#history

以上参考于ROCm官方文档。

  • 1
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值