![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Pytorch
wanghan0801
这个作者很懒,什么都没留下…
展开
-
Pytorch多GPU并行Bug收集(长期):多个模型同时放在不同GPU上并行
##概述最近几天有个模型,使用了local adaptation,就是在inference阶段也加入了训练的过程,因为需要进行模型复制和较大的batch_size进行训练,这样就导致我显卡直接爆炸。我用的看的K80,显存12G。模型用的BERT+文本分类,输入的Sequence_size=512(下简写为seq_size)。##思考过程接下来分享一下我的思考过程,可以看到就模型本身是不大的,即使扩大一倍也不会爆显存,问题就出在这个输入上,seq_size较大的时候,batch_size就要注意了原创 2020-09-10 16:19:48 · 1639 阅读 · 0 评论 -
Pytorch多GPU并行Bug收集(长期):KeyError: Caught KeyError in replica *[device_id] on device *[device_id].
在单卡训练顺利的前提下,修改为多卡训练,可谓bug多多今天用pytorch 多GPU并行训练时,在最后一个step的时候报错了,KeyError: Caught KeyError in replica 5 on device 5.如图所示我们可以看到,代码处应该是没有问题的,经过我的计算,利用train的总量/batch_size-->16100/24=670---余20,无法整除,这下有点眉目了。正好出现在最后一个step上。我这次试验用的是6个GPU跑的试验,使用torch原创 2020-09-08 18:27:59 · 3461 阅读 · 1 评论