【问题描述】:最近在 A100 上面跑一些别人的 repo 的时候,经常碰到报错 “/home/<username>/anaconda3/envs/<env_name>/lib/python3.7/site-packages/nvidia/cublas/lib/libcublas.so.11: undefined symbol: cublasLtGetStatusString (<或者其他>), version libcublasLt.so.11
”。
开始的时候看了各种教程都让我去重新 install 某个pytorch版本,可是真的好麻烦啊… 然后在这里发现了下面的奇妙方法:
【解决方法】
- 通过命令
$ ldd /home/<username>/anaconda3/envs/<env_name>/lib/python3.7/site-packages/nvidia/cublas/lib/libcublas.so.11
查看当前libcublasLt.so.11
的所在位置,然后发现它link到了诸如/usr/local/cuda/lib64/libcublasLt.so.11
这样的位置。 - 通过命令
$ export LD_LIBRARY_PATH=/home/<username>/anaconda3/envs/<env_name>/lib/python3.7(或<your_python_version>)/site-packages/nvidia/cublas/lib/:$LD_LI