第一个坑:cuda版本与pytorch构建版本不一致
因为服务器有很多人在使用,所以会出现cudnn构建版本与pytorch本身版本不一致的现象,使用conda环境安装的缺少编译apex所需的组件,这一点会造成apex安装不成功。这一点可以在报错信息里找到下面类似的提示:
RuntimeError: Cuda extensions are being compiled with a version of Cuda
that does not match the version used to compile Pytorch binaries. Pytorch binaries were compiled
with Cuda xxxx.
解决方法
这种方法需要去cuda的官网下载与pytorch相对应的版本,安装成功后修改CUDA_HOME环境继续编译程序即可解决问题。
第二个坑:GCC版本构建问题
构建时候会报错提示GCC版本不支持,这个也简单,在官网查一下当前cuda支持的gcc版本,重新去装一个就成,可以解决问题,就是编译gcc的时间巨长,需要耐心