实验背景
在使用AMD GPU时,需要安装其配置的底层加速库ROCm,等同于NVIDIA GPU上的CUDA。GPT给的解释经我翻译如下:
- CUDA:该加速库由NVIDIA开发,专门为NVIDIA GPU设计。CUDA让开发者可以更好地基于NVIDIA GPU架构写代码,从而进行并行计算。
- ROCm:该加速库由AMD开发,专门为AMD GPU设计,尤其是用于高性能计算和机器学习的GPU。ROCm的某些组件也支持NVIDIA和其他GPU架构,但是最适用的还是AMD的GPU。
在使用GPU时,最常用的操作之一是观察GPU使用情况。对应nvidia-smi,在ROCm环境下,我们可以使用rocm-smi指令。可以输入指令如下:
rocm-smi
本文主要针对顺利安装完ROCm后,输入以上指令后,仍然出现找不到rocm-smi指令的报错:
rocm-smi command not found.
.
解决方案
以下解决方案主要针对已经正确安装ROCm,但系统仍找不到rocm-smi的情况。关于安装ROCm,请大家关注后续文章。(咱就是主打一个挖坑)
出现以上报错是因为ROCm的环境变量没有配置到系统默认PATH搜索的指令行bin路径导致。
解决方案就是