在网上看到了很多关于解决PreciseRoIPooling和ninja的帖子,发现主要原因是版本不匹配。
但是网上的教程所使用的cuda、pytorch版本都较老,cuda基本都是10以下,pytorch版本也都是1.7左右。
深度学习中的 PreciseRoIPooling 在linux系统中的编译说明及踩坑
并不想更改自己的pytorch版本,运行其他代码来说很麻烦。于是记录一下自己的解决过程。
1. 配置:ubuntu20.04 + pytorch1.12.0(之前已经使用过的虚拟环境中的torch版本)
注意:上述显示的是已经安装的显卡驱动,和GPU所允许的最大CUDA版本,并不是已经装好的CUDA版本!!!
2. 查看自己的CUDA版本:
`nvcc -V
(注意:V是大写,之前一直用小写v,一直报错,纠结了好久是哪里出问题了。。。)
发现出现了问题:
`-bash: nvcc: command not found
表示并没有装CUDA。
3. 安装CUDA和CUDNN
Linux系统CUDA安装及踩坑记录
我安装了GPU所允许的最大CUDA版本11.6.0。
此时遇到了问题:输入命令后一直显示建立连接,总是超时重试。
解决办法:在本地下载然后上传到服务器上。直接将上述命令中的网址输入到浏览器中就自动下载了(上图中蓝色部分)。在服务器上找到这个文件的位置,然后执行第二条命令。
安装cudnn的过程就是按照上述链接中的操作来的,没有遇到问题。
4. 装ninja
wget https://github.com/ninja-build/ninja/releases/download/v1.8.2/ninja-linux.zip
sudo unzip ninja-linux.zip -d /usr/local/bin/
sudo update-alternatives --install /usr/bin/ninja ninja /usr/local/bin/ninja 1 --force
此时出现了深度学习中的 PreciseRoIPooling 在linux系统中的编译说明及踩坑中出现的问题。(忘记截图,借用该帖子的图)
重要的是第二个红框中的错误,表示gcc、g++的版本无法编译。查看自己的gcc版本:
gcc -v
最后一行显示版本号,这儿是我降级完之后的版本,原始版本为9.4。
5. 降级gcc和g++版本
linux系统gcc降版本,并更改默认版本
根据上述教程将版本降为8。
sudo apt-get install gcc-8 g++-8
sudo update-alternatives --install /usr/bin/gcc gcc /usr/bin/gcc-8 100
注意:上述命令只更改了gcc的版本,还需要更改g++的版本,只需要将上面第二行命令中的gcc全部改为g++就可以了。
6. 更改头文件
降级完gcc版本之后,仍然存在问题:
重点还是在于第二个红框:
/data/model/PreciseRoIPooling/pytorch/prroi_pool/src/prroi_pooling_gpu.c:17:10: fatal error: THC/THC.h: 没有 那个文件或目录
#include <THC/THC.h>
^~~~~~~~~~~
compilation terminated.
ninja: build stopped: subcommand failed.
网上查找教程,关于THC/THC.h: No such file or directory解决办法,出现这个问题的原因是pytorch1.7版本之后丢弃了这个头文件,网上给的解决办法大部分都是降级pytorch的版本。
不降级pytorch的办法:
找到上述这个错误的位置,“PreciseRoIPooling/pytorch/prroi_pool/src/prroi_pooling_gpu.c”,注释掉原来的THC头文件,用以下的头文件代替。
#include <ATen/cuda/CUDAContext.h>
#include <ATen/cuda/CUDAEvent.h>
7. 更改方法
更改完头文件之后仍然存在问题。
该头文件相关的方法出现了问题。
解决办法:fatal error: THC/THC.h: No such file or directory 对于THCudaCheck,换成AT_CUDA_CHECK
8. 成功运行!!