如何处理GPU训练过程中出现内存申请大小为0的错误【The memory alloc size is 0】

【现象描述】

GPU上网络运行过程中出现内存申请大小为0的错误,报错日志中有如下信息:

The memory alloc size is 0

【原因分析】

该错误出现是由于内存申请的时候调用接口时传入的申请size为0,因此报错,碰到场景非常少,一般原因是数据集读取的数据是空导致size为0

【排查步骤和解决方法】

步骤1:排查数据集中读取的数据是否有问题,可以通过context.set_context(save_graphs=True)保存图,然后观察*_validate*.ir这一类ir是否生成,如果未生成则说明图还未执行就报错了,基本上就确认了数据集读取数据出现问题了,可以自行排查或者联系MindData开发人员确认。

步骤2:如果前面步骤确认没有问题的话,需要MindSpore开发人员详细分析了,context.set_context(save_graphs=True)同时export GLOG_v=1保存执行日志,将保存的图和日志打包发给开发人员排查确认。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值