Knowledge Distillation(6)——Large scale distributed neural net training through online distillation

最新推荐文章于 2024-09-10 02:16:39 发布

judgechen1997

最新推荐文章于 2024-09-10 02:16:39 发布

阅读量913

点赞数

分类专栏： Knowledge Distillation 知识蒸馏文章标签： DL ML

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/judgechen1997/article/details/101161807

版权

Knowledge Distillation 知识蒸馏专栏收录该内容

11 篇文章 13 订阅

订阅专栏

Large scale distributed neural network training through online distillation

概述

Google Brain, Google DeepMind等团队合作的一篇论文，Hinton的名字赫然在列，发表在ICLR2018.

概述

主要想法是，现在的分布式SGD是有缺陷的，因为需要花费大量的时间。且在投入了一定的机器后，继续投入计算资源，无法进一步缩短训练时间或者提升模型效果。

因而提出用online distillation的方式，进行大规模分布式神经网络训练，以期获得更快的训练速度并提升模型精度。该工作提出了Codistillation的概念，通过大规模实验，发现codistillation方法提高了准确性并加快了训练速度，并且易于在实践中使用。

对Codistillation的定义：
在这里插入图片描述
作者构造的是同样的网络并行训练，并且在未收敛时就使用distillation loss
感觉这篇文章是Deep Mutual Learning的升级版本，同时让许多同样的网络进行并行训练。效果是大家都学的更快还学的更好了
同样耗费上百个GPU的话，使用SGD加大batchsize没啥效果，但是这种codistillation的方式看似训练了太多模型，但是大家一起学、互相学，收敛的更快了~

不过这篇论文对于我来说没多大帮助，毕竟我没有128GPUs。。。所以看看就好。
工业界大厂还是暴力啊，不过实验室小作坊也有自己的玩法哈哈~

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。