1. 解压缩数据
按照ReadMe 采用命令 cat glint360k* | tar -xzvf - 来解压缩,报如下错误
gzip: stdin: not in gzip format
tar: Child died with signal 13
tar: Error is not recoverable: exiting now
解决方法:注意一定要加最后的 “-”, 去掉xzvf中的z, 即采用命令 cat glint360k* | tar -xvf - 来解压
2.patical-fc训练
1)直接训练报mxnet超过内存错误,且几个gpu中只有一个在运行
解决:安装MPI错误; 不能用pip install 直接安装,要按照项目中recognition/partial_fc/mxnet/setup-utils/install-mpi.sh 的方法安装
2)安装horovod报错
需要指定nccl的路径;如果没有nccl,要先安装nccl,再更新环境变量,然后再安装horovod
3)安装nccl 官网找不到cuda 10.0及以下版本的安装包
https://developer.nvidia.com/nccl/nccl-legacy-downloads
4)
几个有用的连接
安装horovod: https://zhuanlan.zhihu.com/p/78303865
注意
a. g++ g-- 只需要>= 4.9.9这个版本即可,有些教程会误导必须安装这个版本
b.nccl 安装时,不能手动把解压后的安装包放到usr/local下,要用mv命令
c.horovod 需要指定安装mxnet
d.horovod 下载了但没安装成功,第二次尝试会出现already satisfied而不安装,此时要在pip install 后面加上 --ignore-installed