《深度学习笔记》——“损失函数loss乘以正数因子a是否等价于学习率lr乘以a呢？”

songyuc

已于 2022-07-25 16:51:06 修改

阅读量2.5k

点赞数 7

分类专栏：《深度学习笔记》文章标签：深度学习

于 2021-03-04 17:24:00 首次发布

本文链接：https://blog.csdn.net/songyuc/article/details/114373230

版权

《深度学习笔记》专栏收录该内容

29 篇文章 4 订阅

订阅专栏

致谢

感谢知乎回答“loss的尺度的影响的本质上取决于优化器”给予我的启发！

1 问题描述

最近我在调参时，想到一个问题：“损失函数loss乘以正数因子a是否等价于学习率lr乘以a呢？”

2 解答

对于梯度优化而言，损失函数loss乘以正数因子a与学习率lr乘以a，与优化器算法optimizer有关。

Optimizer	Equivalency (ls & lr)	Experiment
SGD	unknown
Adam	unknown
AdamW	✓	Torch_adamw_ls.ipynb

3 证明

3.1 朴素SGD：等价

3.2 Adam：不等价，ls失效

这里选择的Adam算法形式是比较简单的算法描述，来自于Adam论文《A Method for Stochastic Optimization》，其公式为
在这里插入图片描述
直观解释：根据以上算法流程，当loss乘以尺度 $s$ 时，loss梯度 $g_t$ 增大 $s$ 倍，那么 ${g_t}^2$ 则会扩大 $s^2$ 倍；由于 $m_t$ 是 $g_t$ 的累加， $v_t$ 是 ${g_t}^2$ 的累加，那么 $m_t$ 会扩大 $s$ 倍， $v_t$ 会扩大 $s^2$ 倍。由于 $\hat{m}_t$ 与 $m_t$ 线性相关， $\hat{v}_t$ 与 $v_t$ 线性相关，那么最后一步的梯度更新相当于
$\theta_t=\theta_{t-1}- \alpha \cdot \frac{s\ast\hat{m}_t}{ \sqrt{s^2\ast\hat{v}_t} + \epsilon}=\theta_{t-1}- \alpha \cdot \frac{\hat{m}_t}{ \sqrt{\hat{v}_t} + \epsilon/s}$
由于 $\epsilon/s$ 为极小值，可以忽略不计，则可以看到ls没有对梯度更新产生作用，即ls失效；
以上过程可以使用代码进行验证。[]

则原命题等价于：已知函数
$h_t=\alpha \cdot \hat{m}_t/\left( \sqrt{\hat{v}_t} + \epsilon \right )=h(\alpha,f_t)$
对任意正数因子 $m$ ，有函数
$h_1=h(m\alpha,f_t)$
以及函数
$h_2=h(\alpha,mf_t)$
可知
$\begin{aligned} h_2 &= h(\alpha,mf_t) \\ &= \alpha \cdot {\hat{m}_t}'/\left( \sqrt{{\hat{v}_t}'} + \epsilon \right ) \\ &= 行3等号右 \\ \end{aligned}$
则有 $h_1\equiv h_2$ 。