Datawhale X 李宏毅苹果书 AI夏令营学习笔记(二)

urlyy_

已于 2024-08-23 17:12:07 修改

阅读量409

点赞数 19

分类专栏： Datawhale学习笔记文章标签：人工智能学习笔记

于 2024-08-23 16:51:09 首次发布

本文链接：https://blog.csdn.net/qq_51955445/article/details/141438564

版权

Datawhale学习笔记专栏收录该内容

5 篇文章 0 订阅

订阅专栏

自适应学习率

我们梯度下降在参数更新上，公式是 $W_t=W_{t-1}-\eta g_t，\eta是学习率，g_t是梯度$ 。

最简单的梯度下降算法，会出现类似下图的情况，损失下不去，梯度来回震荡，收敛缓慢。究其原因是学习率太大，导致参数变化太大，但下一次为了降低损失，得到了反方向的梯度，最终表现为梯度来来回回。
在这里插入图片描述

下面这张图更好的做了对比，这张图是误差平面，我们要从A点到达黄X，横着的那些线可以类比等高线，表示在与他们垂直的方向上，梯度变化很大，相反，与他们平行的方向，梯度变化很小，几乎平坦，这种也称为“凸的”误差平面(即一个轴的方向梯度变化大，另一个轴的方向梯度几乎不变)。当学习率过大时，参数(看纵轴)来回变动，一会大于0一会小于0。而学习率过小时，虽然一开始能缓慢地根据梯度变化趋势下降，但在平坦的方向上就几乎不会动了。

因此我们得到结论，学习率不能固定为一个初设值(或者说梯度不能直接乘一个固定值)，应该根据当前情况动态调整，即自适应。如果在某一个方向上，梯度的值很小，非常平坦，我们会希望学习率调大一点；如果在某一个方向上非常陡峭，坡度很大，我们会希望学习率可以设得小一点。
在这里插入图片描述

AdaGrad(Adaptive Gradient)

我们还是保留 $\eta$ 这个固定不变的超参数，但是我们不能让 $\Delta W_t=\eta g_t$ ，我们需要 $\Delta W_t=\frac{\eta}{\sigma_t^i}g_t^i$ ，其中 t 还是表示第 t 次迭代，i 表示对于第 i 个参数，因为自适应的学习率，在每次迭代、每个参数上都不一样。重点是 $\sigma_t^i$ 必须在梯度大时大，梯度小时小，这样被 $\eta$ 一除，就能满足梯度大时 $\Delta W$ 小，梯度小时 $\Delta W$ 大。

在Ada中， $\sigma^i_0=\sqrt {(g_0^i)^2},\sigma^i_1=\sqrt {\frac{1}{2}[(g_0^i)^2+(g_1^i)^2]},\sigma^i_2=\sqrt {\frac{1}{3}[(g_0^i)^2+(g_1^i)^2+(g_2^i)^2]}$ ，依此类推。即是使用到了过去所有梯度的均方根。如果梯度 $g_t^i$ 较小，由于取平均值导致 $\sigma_t^i$ 减少，进而导致了学习率的增加，加速通过平坦路况。

RMSProp(Root Mean Squared propagation)

对于Ada，由于使用了历史梯度平方，且每个历史梯度都没有权重，历史的较大值会产生长远的影响。
RMSProp将Ada的取平均改为权重(衰减因子)。 $\sigma^i_0=\sqrt {(g_0^i)^2},\sigma^i_1=\sqrt {\alpha (\sigma_0^i)^2+(1-\alpha)(g_1^i)^2},σ^i_2=\sqrt {\alpha(\sigma_1^i)^2+(1-\alpha)(g_2^i)^2}$ ，依此类推，注意历史梯度用到的是 $\sigma_{t-1}^i而不是g_{t-1}^i$ 。
通过设置较小的 $\alpha$ ，可以更看重最新算出的梯度。

Adam(Adaptive moment estimation）

最常用的优化器(optimizer)，可以看作在RMSProp基础上，把梯度 $g_t^i$ 换成动量 $m_t^i$ 。
注意，虽然在 $\frac{\eta}{\sigma_t^i}m_t^i中，\sigma_t^i和m_t^i$ 都用到了历史梯度，但是前者只是标量，后者是向量，他们不会相互抵消。

学习率调度

上面的都是说让梯度乘上一个变化的值，但学习率还是固定的。而这里的新策略是学习率 $\eta_t$ 也是随时间变化的。

学习率衰减：随着训练进行，逐步减少学习率，尽量防止震荡以加快收敛。
预热：在训练初期使用较低的学习率，逐渐收集统计数据找到合理路径。之后逐渐增加以加快收敛。有一个Adam的预热版本RAdam。

分类问题

对于训练集，我们每个样本的y要表示该样本对应的类，我们可以使用one-hot编码，比如有n个类，当前样本类型是1，就用一个除第n维是1之外、其他维为0的n维向量表示。比如3个类，[0,1,0]表示该样本属于第二类。这个也可以看做一个概率分布，即这个样本属于第二类的概率为1。最后计算损失时，就可以用 $\hat y$ 和y计算相似度。

如果还是用回归的方式得到 $\hat{y}$ ，值很可能不是一个概率分布，n维每个值的和不等于1。所以这里需要用到归一化，我们使用softmax。 $y'_i =\frac{exp(y_i)}{\sum_jexp(y_i)},其中，0<y'_i<1，\sum_i y'_i = 1。$ 效果如下，同时softmax还会让原本大的值跟小的值的差距更大。注意当只有两个类的时候，sigmoid 和 softmax 是等价的。
在这里插入图片描述
那么接下来就要计算损失了。比较常用的是最小化交叉熵，其实也是极大似然。
$e=-\sum_i y_i ln y_i'$
相比于均方误差的好处还没细看。只关注到了一个结论，交叉熵能更容易的利用优化器优化。
改变损失函数可以改变优化的难度
在这里插入图片描述