在跑Deepspeed的时候出现了很多问题,花了很长时间解决,期间还重新下载了Anaconda,把我已有的几个虚拟环境全删了(虽然现在看起来根本没必要这么做)。趁着代码还在跑,来此记录一下,希望能方便后来者。
错误1:nvcc不可用,可输入以下指令测试
nvcc -V
分析&解决:用pytorch安装的CUDA没有提供nvcc,需要重新安装:
conda install -c nvidia cuda-compiler
错误2:
<command-line>: fatal error: cuda_runtime.h: No such file or directory
分析&解决:还是CUDA的问题,参考这篇文章。
安装完成之后需要配置cuda环境路径,打开.bashrc文件
添加如下语句:
export CUDA_HOME=/usr/local/cuda-xxx
export PATH=$CUDA_HOME/bin:$PATH
export LD_LIBRARY_PATH=$CUDA_HOME/lib64:$LD_LIBRARY_PATH
编辑完成后用如下命令激活:
source ~/.bashrc
错误3:
RuntimeError: Error building extension 'fused_adam'
解决:卸载已经安装的DeepSpeed,从github重新安装
git clone https://github.com/microsoft/DeepSpeed.git
cd DeepSpeed
DS_BUILD_FUSED_ADAM=1 pip3 install .