程序并行
yijun009
这个作者很懒,什么都没留下…
展开
-
pytorch多GPU分布式训练(DDP),cuda0 out of memory,cuda0减少batch_size的注意事项。
当我们使用distributedDataParallel(DDP)进行分布式训练的时候,假设单卡训练时,一张卡一个batch能装4张图片,并且占得比较满。而多卡训练时,由于cuda0除了要进行前向传播等还得负责通信,cuda0的空间就不够大了。这时,我们可以选择减少cuda0上的batch_size大小,比如改为1.假如我们有8张卡,设置的总的batch_size = 32,原始设置的每张卡batch_size=4。以github上这个文件为例截取需要改的一段:parser.add_argumen原创 2021-12-11 16:39:55 · 4461 阅读 · 0 评论 -
python for循环加速
https://zhuanlan.zhihu.com/p/97399838https://blog.csdn.net/YNNAD1997/article/details/113829532?utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7Edefault-2.no_search_link&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2原创 2021-10-09 20:01:40 · 602 阅读 · 0 评论