1.mxnet+mpi+horovod 16卡并行训练
使用mpirun -np16 开启16个进程新建ndarray时报错:
cudaMemGetInfo failed:out of memory
需要设置环境变量中export CUDA_DEVICE_MAX_CONNECTIONS=32为
export CUDA_DEVICE_MAX_CONNECTIONS=16(8、1也行)
原因参考:cuda流和并发硬件连接问题
2.上述设置好后 nvidia.dali_loader出现pipe错误
RuntimeError: Critical error in pipeline
调低bs即可