面试官问：深度网络中loss除以10和学习率除以10等价吗-CSDN博客

本文链接：https://blog.csdn.net/weixin_43520816/article/details/147934518

面试官问：深度网络中loss除以10和学习率除以10等价吗

面试题

深度网络中loss除以10和学习率除以10等价吗？

标准答案

在讨论深度学习中，调整 loss的尺度与调整 学习率 是否等价时，答案取决于使用的优化器类型。以下是对常见优化器的分析:

第一类：传统优化器(如 SGD 和 Momentum SGD)

随机梯度下降(SGD)

随机梯度下降是对每个训练样本就更新一次网络参数，这样使得网络更新参数速度很快，但是问题就是由于训练数据多样，容易朝偏离网络最优点方向训练，网络训练不稳定。

Momentum SGD

随机梯度下降的方法很难通过峡谷区域(也就是在一个维度梯度变化很大，另一个维度变化较小)，这个很好理解，因为梯度下降是梯度更新最大的反方向，如果这个时候一个维度梯度变化很大，那么就很容易在这个方向上振荡，另一个方向就更新很慢，如下图:

上面上图没有加动量，下图加了动量的方法，可以看到有动量可以在变化小的维度上加快更新使得加快收敛。该方法是通过添加一个参数B构建一个一阶动量m,其中m有下列表达式:

对于传统优化器，深度网络中loss除以10和学习率除以10等价吗？

对于这些传统优化器， loss 乘以一个常数会直接影响梯度的计算继而改变参数更新的幅度。因此， loss缩放和学习率缩放是等价的。具体来说，将 loss乘以10等价于将学习率也乘以10，二者对参数更新的影响相同。

第二类：带有二阶动量的优化器(如 Adagrad、RMSprop)

Adagrad

对于所有特征，我们的学习率一直没有变。怎么理解呢?假设我们用一批数据训练网络，这个数据中只有少部分数据含有某个特征，另一个特征几乎全部数据都具有，当这些数据通过训练时，对于不同特征我们假设对应于不同的神经元权重，对于都含有的特征，这些神经元对应参数更新很快，但是对于那些只有少部分数据含有的特征，对应神经元权重获得更新机会就少，但是由于学习率一样，这样可能导致神经网络训练的不充分。

adagrad算法就是为了解决这个问题，让学习率学习数据的特征自动调整其大小，adagrad算法引入了二阶动量，其表达式为:

其中g(t)为t时刻参数梯度，下面来讲解为什么adagrad可以实现不同频率特征对其参数学习率改变，首先，我们看到二阶动量V(t)，它是梯度平方累加和，对于训练数据少的特征，自然对应的参数更新就缓慢，也就是说他们的梯度变化平方累加和就会比较小，所以对应于上面参数更新方程中的学习速率就会变大，所以对于某个特征数据集少，相应参数更新速度就快。为了防止上述分母为0，所以往往添加一个平滑项参数ε，参数更新方程也就变成: