KeyError: Caught KeyError in replica 7 on device 7.

最新推荐文章于 2024-02-16 14:51:13 发布

codebrid

最新推荐文章于 2024-02-16 14:51:13 发布

阅读量814

点赞数

分类专栏：自然语言处理文章标签： pytorch 人工智能 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ccbrid/article/details/124865066

版权

自然语言处理专栏收录该内容

12 篇文章 1 订阅

订阅专栏

可以解决问题，但总归不是长久之计：

Pytorch多GPU并行Bug收集（长期）：KeyError: Caught KeyError in replica *[device_id] on device *[device_id]._wanghan0801的博客-CSDN博客在单卡训练顺利的前提下，修改为多卡训练，可谓bug多多今天用pytorch 多GPU并行训练时，在最后一个step的时候报错了，KeyError: Caught KeyError in replica 5 on device 5.如图所示我们可以看到，代码处应该是没有问题的，经过我的计算，利用train的总量/batch_size-->16100/24=670---余20，无法整除，这下有点眉目了。正好出现在最后一个step上。我这次试验用的是6个GPU跑的试验，使用torchhttps://blog.csdn.net/wanghan0801/article/details/108473879

nn.DataParallel的自带问题

torch.nn.DataParallel的一些tip(持续更新)_Reza.的博客-CSDN博客为什么要用dataparallel?加速训练？原理是什么？最根本的原因是加大了batch_size，所以加速了训练。原因是我们在用GPU训练模型的时候，因为模型本身占现存就很大了，比方说BERT,那么在一次forward的过程中，如果batch_size过大，那么单块板子上计算图就构建地太大了，因此有可能炸显存，所以也就限制了batch_size的大小。而dataparallel的原理就是把原先的model replicate多份，每份都是一个副本，然后在forward的时候，就可以一次性传入更大的bhttps://blog.csdn.net/weixin_43301333/article/details/111386343

建议更换DistributedDataParallel

和nn.DataParallel说再见 - 知乎真的没想到随手写的一篇小笔记会引起那么多关注，真是瑟瑟发抖。读研之后，才开始接触pytorch, 理解的难免有很多错误，感谢各位大佬指出的错误和提出的意见，我会慢慢修改的。评论区有大佬说nvidia的 apex.distri…https://zhuanlan.zhihu.com/p/95700549

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
KeyError: Caught KeyError in replica 7 on device 7.

可以解决问题，但总归不是长久之计：Pytorch多GPU并行Bug收集（长期）：KeyError: Caught KeyError in replica *[device_id] on device *[device_id]._wanghan0801的博客-CSDN博客在单卡训练顺利的前提下，修改为多卡训练，可谓bug多多今天用pytorch 多GPU并行训练时，在最后一个step的时候报错了，KeyError: Caught KeyError in replica 5 on device 5.如图所示
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。