gpu服务器配置遇到的各种bug
nvcc 命令无法识别
解决方法:向配置文件中添加环境变量
gedit ~/.bash_profile
打开bash_profile
####################
## cuda
####################
#export CUDA_DIR=/usr/local/cuda
export CUDA_DIR=/usr/local/cuda-8.0
#export CUDA_DIR=/usr/local/cuda-7.5
export LD_LIBRARY_PATH=$CUDA_DIR/lib64:/usr/local/cuda/lib64:$LD_LIBRARY_PATH
export PATH=$CUDA_DIR/bin:$PATH
####################
## mxnet
####################
#export JAVA_HOME=/usr/jdk64/jdk1.8.0_77
export JAVA_HOME=/usr/lib/jvm/java-1.7.0
export JRE_HOME=${JAVA_HOME}/jre
CLASSPATH=${JAVA_HOME}/lib:${JRE_HOME}/lib
export HADOOP_PREFIX=/usr/local/hadoop-2.7.2
export HADOOP_HOME=${HADOOP_PREFIX}
export HADOOP_CLASSPATH=$(hadoop classpath):$HADOOP_CLASSPATH
export PATH=${JAVA_HOME}/bin:$PATH
export PATH=${HADOOP_HOME}/bin/:${PATH}
export LD_LIBRARY_PATH=${HADOOP_HOME}/lib/native:$LD_LIBRARY_PATH:$JAVA_HOME/jre/lib/amd64/server
export CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath --glob)
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-8.0/lib64
export PYTHONPATH=${PYTHONPATH}:/home/users/xuezhi.zhang/data-sdc/CLionProjects/qnn2/mxnet/python
export MXNET_CPU_WORKER_NTHREADS=4
要添加到.bash_profile
文件
使环境变量生效
还要执source ~/.bashrc
命令
CUNDNN_STATUS_SUCCESS![在这里插入图片描述](https://i-blog.csdnimg.cn/blog_migrate/4e7afe5af8c1b6abe200dbe957c24ec1.png)
这个错误会在input图片尺寸
(或者说整个input tensor)过大
时会出现。
ilegal character '\rf’报错
不知道该咋处理,直接用的编译好的文件
torsorboardX 报错 ValueError: range parameter must be finite.
原因 向histogram直方图输入的数值有NaN缺省值或者Inf,导致画图失败
解决方法 : 使用fillna()等转化NaN 为其他numeric
手动将Inf改为很大的数即可
np.nan_to_num很美好,但是会爆内存
现在的做法是自己写一个两层for循环遍历一下,很捞,可能也很慢,但是暂时还没成为速度瓶颈(因为只是可视化的部分,问题不大)
loss和EPE出现Inf的情况
预估原因:loss function有问题或者梯度爆炸
解决方法:学习率过高,默认0.001,调低点就完事了
things3D和chairs数据集读取过程中出错
1.out of range多读了一组数据(ChairsSDHom)
2.用读flo的方式读pfm,出错因为read_gen代码里没有读.pfm格式文件的case
自己写了个读pfm的文件