MindSpore:Ascend双卡跑程序出错问题咨询

问题:

【功能模块】

【操作步骤&问题现象】

1、加速卡连接线已经连接。

2、已经在.sh文件中添加语句

export HCCL_INTRA_ROCE_ENABLE=1

3、配置文件已经修改

4、尝试多个程序依然出错,重启服务器依然不行。

【截图信息】

yolov4出错:

faster_rcnn出错:

【日志信息】(可选,上传日志内容或者附件)

解决方案:

配置多卡环境的那个rank_table配置文件,里面的device_id是不能跳跃的。device_id有0-3,4-7两组。少于8卡的配置device_id不能跨组,图中的device_id应该在同一组。修改配置文件再试一下

ai server使用的是标卡模式,不是常用的800-9000的8卡模式,对于ai server这种方式卡号一般是2和5,对于这种标卡模式,是正常的。

对于标卡的模式是需要使用ROCE通信,然后就可以进行分布式训练。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值