报的错是双卡通讯失败,让检查nccl,但考虑到是docker的环境,可能和nccl没太大关系(因为不用docker可以正常跑)。
最后解决方法是参考issue中的
https://github.com/NVIDIA/nccl/issues/342#issuecomment-647049246
https://stackoverflow.com/questions/30210362/how-to-increase-the-size-of-the-dev-shm-in-docker-container
加入–shm-size=256m 在-it命令后,位置比较重要。