KeyError: Caught KeyError in replica 7 on device 7.

可以解决问题,但总归不是长久之计:

Pytorch多GPU并行Bug收集(长期):KeyError: Caught KeyError in replica *[device_id] on device *[device_id]._wanghan0801的博客-CSDN博客在单卡训练顺利的前提下,修改为多卡训练,可谓bug多多今天用pytorch 多GPU并行训练时,在最后一个step的时候报错了,KeyError: Caught KeyError in replica 5 on device 5.如图所示我们可以看到,代码处应该是没有问题的,经过我的计算,利用train的总量/batch_size-->16100/24=670---余20,无法整除,这下有点眉目了。正好出现在最后一个step上。我这次试验用的是6个GPU跑的试验,使用torchhttps://blog.csdn.net/wanghan0801/article/details/108473879

nn.DataParallel的自带问题

torch.nn.DataParallel的一些tip(持续更新)_Reza.的博客-CSDN博客为什么要用dataparallel?加速训练?原理是什么?最根本的原因是加大了batch_size,所以加速了训练。原因是我们在用GPU训练模型的时候,因为模型本身占现存就很大了,比方说BERT,那么在一次forward的过程中,如果batch_size过大,那么单块板子上计算图就构建地太大了,因此有可能炸显存,所以也就限制了batch_size的大小。而dataparallel的原理就是把原先的model replicate多份,每份都是一个副本,然后在forward的时候,就可以一次性传入更大的bhttps://blog.csdn.net/weixin_43301333/article/details/111386343

建议更换DistributedDataParallel

和nn.DataParallel说再见 - 知乎真的没想到随手写的一篇小笔记会引起那么多关注,真是瑟瑟发抖。 读研之后,才开始接触pytorch, 理解的难免有很多错误,感谢各位大佬指出的错误和提出的意见,我会慢慢修改的。评论区有大佬说nvidia的 apex.distri…https://zhuanlan.zhihu.com/p/95700549

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值