深度学习优化器解析-CSDN博客

本文链接：https://blog.csdn.net/tonydandelion2014/article/details/79730182

介绍一些深度学习的优化器参考覃秉丰教程

梯度下降法则

标准梯度下降法：计算所有样本汇总误差，根据总误差来更新权值
随机梯度下降法：先随机抽取一个样本来计算误差，再根据这个误差来更新权值
批量梯度下降法：从总样本中选取一个批次（batch）（例如10000个样本，随机选取1中的100个样本作为batch），然后计算这个batch的总误差，再根据这个误差来更新权值

随机梯度下降法：

带Momentum的随机梯度下降法：

涅斯捷罗夫加速梯度下降法 NAG(Nesterov accelerated gradient)

在Momentun中小球会盲目地跟从下坡的梯度,容易发生错误,所以我们需要一个更聪明的小球,这个小球提前知道它要去哪里,它还要知道走到坡底的时候速度慢下来而不是又冲上另一个坡。γvt−1会用来修改W的值,计算W−γvt−1可以表示小球下一个位置大概在哪里。从而我们可以提前计算下一个位置的梯度,然后使用到当前位置。

Adagrad

上面提到的方法对于所有参数都使用了同一个更新速率。但是同一个更新速率不一定适合所有参数。比如有的参数可能已经到了仅需要微调的阶段，但又有些参数由于对应样本少等原因，还需要较大幅度的调动。于是提出了Adagrad算法，为不同分类设置了不同的学习率。简单的说，就是这类数据出现的越多，这类数据的学习率越小，这类数据出现的越少，这类数据学习率越大。

η为学习率，一般为0.01
gti为第i个分类的代价函数的导数（第i个分类的代价函数的梯度）
Wt+1等于Wt减去学习率η除以（从1到t’的共计t’次第i个分类的代价函数的梯度的平方加ε的和的平方根）的商点乘gt的积

它是基于SGD的一种算法,它的核心思想是对比较常见的数据给予它比较小的学习率去调整参数,对于比较罕见的数据给予它比较大的学习率去调整参数。
它很适合应用于数据稀疏的数据集(比如一个图片数据集,有10000张狗的照片,10000张猫的照片,只有100张大象的照片)。比较稀疏的数据集是指猫和狗的照片很多，而大象的照片很少，即照片分布不均匀。

举例说明：
设置狗是第一个分类（i=1），猫是第二个分类（i=2），大象是第三个分类（i=3）。
第一次抽到狗，即i=1，t=1(第1次抽到狗这个分类)，计算g11(第一分类的代价函数的导数(梯度))的平方，此时狗分类学习率η=η/(g11的平方+ε)。
第二次又抽到狗，即i=1，t=2(第2次抽到狗这个分类)，计算g21(第一分类的代价函数的导数(梯度))的平方，此时狗分类学习率η=η/(g11的平方+g21的平方+ε)。
第三次还抽到狗，即i=1，t=3(第3次抽到狗这个分类)，计算g31(第一分类的代价函数的导数(梯度))的平方，此时狗分类学习率η=η/(g11的平方+g21的平方+g31的平方+ε)。
第四次抽到的是猫，即i=2，t=1(第1次抽到猫这个分类)，计算g12(第二分类的代价函数的导数(梯度))的平方，此时猫分类学习率η=η/(g12的平方+ε)。
第五次抽到的是象，即i=3，t=1(第1次抽到象这个分类)，计算g13(第三分类的代价函数的导数(梯度))的平方，此时象分类学习率η=η/(g13的平方+ε)。
第六次抽到的还是猫，即i=2，t=2(第2次抽到猫这个分类)，计算g22(第二分类的代价函数的导数(梯度))的平方，此时猫分类学习率η=η/(g12的平方+g22的平方+ε)。
以此类推

优点：从举例中可以看出，Adagrad确实可以达到对比较常见的数据给予它比较小的学习率去调整参数,对于比较罕见的数据给予它比较大的学习率去调整参数这个目的。

缺点：Adagrad主要的优势在于不需要人为的调节学习率,它可以自动调节。它的缺点在于,随着迭代次数的增多,学习率也会越来越低,最终会趋向于0。