Gradient Centralization: A New Optimization Technique for Deep Neural Networks（讲解）

最新推荐文章于 2022-09-24 15:20:47 发布

CV/NLP大虾

最新推荐文章于 2022-09-24 15:20:47 发布

阅读量483

点赞数

分类专栏：论文阅读

本文链接：https://blog.csdn.net/m0_37400316/article/details/105955193

版权

8 篇文章 0 订阅

订阅专栏

论文地址：https://arxiv.org/pdf/2004.01461.pdf
项目地址：https://github.com/Yonghongwei/Gradient-Centralization
论文整体解读：化繁为简

不同于基于激活或权重向量运行的技术，该研究提出了一种基于权重向量梯度的简单而有效的 DNN 优化技术——梯度中心化（GC）。
如下图)所示，GC 只是通过中心化梯度向量使其达到零均值。只需要一行代码，即可将其轻松嵌入到当前基于梯度的优化算法（如 SGDM、Adam）。

   d_p = p.grad.data

   d_p.add_(-d_p.mean(dim=tuple(range(1, len(list(d_p.size())))), keepdim=True))

尽管简单，但 GC 达到了多个期望效果，比如加速训练过程，提高泛化性能，以及对于微调预训练模型的兼容性。
原理图如下图所示：

在这里插入图片描述

关注