问题:
【功能模块】
【操作步骤&问题现象】
1、加速卡连接线已经连接。
2、已经在.sh文件中添加语句
export HCCL_INTRA_ROCE_ENABLE=1
3、配置文件已经修改
4、尝试多个程序依然出错,重启服务器依然不行。
【截图信息】
yolov4出错:
faster_rcnn出错:
【日志信息】(可选,上传日志内容或者附件)
解决方案:
配置多卡环境的那个rank_table配置文件,里面的device_id是不能跳跃的。device_id有0-3,4-7两组。少于8卡的配置device_id不能跨组,图中的device_id应该在同一组。修改配置文件再试一下
ai server使用的是标卡模式,不是常用的800-9000的8卡模式,对于ai server这种方式卡号一般是2和5,对于这种标卡模式,是正常的。
对于标卡的模式是需要使用ROCE通信,然后就可以进行分布式训练。