多种梯度下降算法原理及分析

梯度下降概述

梯度下降法是神经网络模型训练最常用的优化算法

对于深度学习,梯度下降法大部分的模型中都会遇到,其中也有不少学问

找到目标函数的梯度,而梯度代表的就是函数上升最快的方向

对于最小优化的问题来说,就是要使得目标函数下降最快,即是梯度的反方向
将其沿着梯度的反方向前进一个步长η(学习率)来实现目标函数的减少

例子:
对于参数θ,假设其损失函数即 目标函数为Loss(θ),f(θ)为Loss对θ求偏导的结果
则θ的更新为 θ = θ - ηf(θ)

那么对于计算Loss采用的训练集的不同,可以简单分为批量梯度下降法、随机梯度下降法和小批量梯度下降法

批量梯度下降法

对于Loss来说是采用所有的训练集一次性训练进行梯度下降的计算进行一次更新
其优点是对于训练集的每一个样本都有涉及
但是对于很大的训练集可能会超出内存,并且一般收敛速度较慢

比如在三维空间中,有很多样本教你应该往哪走,可能大部分样本说向前,但是有一些特殊的样本叫你向其他方向走,这样就导致向前走的速度变慢了

随机梯度下降法

对于Loss每次采用训练集的一个样本进行训练从而进行一次更新
其优点是可能收敛速度会很快
但是对于一些特殊的样本会导致梯度的震荡

有个经典图例可以了解一下
abcd

如图,假设我们现在在B点想通过梯度下降到最低点A,但是有一个特殊的样本使得梯度下降过多跑到了C点反而距离A点更远,Loss值更大了
甚至从B到C附近又到D附近又到B附近这样来回却无法收敛

小批量梯度下降

这个方法就是综合了前面的两种方法,既能加速下降的速率,也能减少出现震荡的概率
小批量梯度下降是现在最常用的梯度下降的方法

梯度下降算法

最近在看Tensorflow,在tensorflow中,梯度下降优化器函数为
tf.train.GradientDescentOptimizer

那么对于梯度下降来说只要简单的通过上面三种方法是无法解决所有的问题的

梯度下降最常见的问题要出现了,即是不能保证全局收敛,也就是梯度下降到一个极小值的点而非最小值的点,当简单的梯度下降进入到局部最优的时候将会无法继续向最小值前进了

ab
如图,若到达B点(极小值点)附近,那么此时计算样本收敛不够快导致无法从B点附近跳到能够向A点收敛的地方,那么将会无法到达最优解A点附近

为了收敛更快跳过局部最优解的极小值点,我们可以增大学习率,就跟随机梯度下降一样可能会导致震荡,甚至还可能会发散

学习率低则会导致进入前面说的局部最优解

那么就需要其他经典的梯度下降算法来保证收敛速度和全局最优

Momentum optimization 动量优化算法

公式:m = γm + ηf(θ) , θ = θ - m
其中m为动量,γ是伽马不是y

这个算法的原理是基于一个物理现象,当一个小球从山上滚下来,速度会越来越快,但是到山低的时候又会因为阻力而停下

在参数更新时,加入多了一个γm,而这个γm在后续又在继续变化,γ一般取值为0.9

动量与梯度同方向,动量项γ增大;动量与梯度反方向,动量项γ减小

动量项只对相关样本进行参数更新,减少了不必要的参数更新,从而得到更快且稳定的收敛,就可以越过局部最优点,也减少了振荡

Tensorflow中动量优化的函数为
tf.train.MomentumOptimizer

Nesterov Accelerated Gradient 震荡梯度加速算法

NAG算法是对冲量梯度下降算法的改进版本,动量方法导致小球到达最低点后动量非常大,可能会错过最低点,所以在小球在上坡时继续向上冲的时候小球应该减速更多,而不是只通过动量项的减少来简单地降低速度

公式:m = γm + ηf(θ - γm) , θ = θ - m
这个算法是通过粗略预测下一个更新的位置的梯度(即θ - γm)来进行现在的更新

有效避免上坡又越过了最低点的部分情况
Tensorflow中NAG优化的函数为
tf.train.MomentumOptimizer里面要加参数 use_nesterov=True

Adagrad算法

是一种学习速率自适应的梯度下降算法,通过参数来调整学习率,在训练迭代过程,其学习速率是逐渐衰减的,频繁更新参数会导致学习率下降更快的自适应算法

公式: G = G + f(θ)f(θ) (即f(θ)的平方) θ = θ - (η/√(G+ε))f(θ)
G为梯度平方和,当迭代次数增加时G越来越大
原来的学习率η换成了η/√(G+ε),其中ε为一个很小的值以防止G为0,当G增大时该真实学习率越来越小

由于Adagrad算法会导致学习率越来越小,导致训练过早结束
Tensorflow中Adagrad优化的函数为
tf.train.AdagradOptimizer

RMSprop 与 AdaDelta 算法

RMSprop 是对Adagrad算法的一种改进,解决学习速率过快衰减的问题
类似与Momentum算法,引入一个超参数γ在G中进行衰减

公式: G = γG + (1-γ)f(θ)f(θ) (即f(θ)的平方) θ = θ - (η/√(G+ε))f(θ)

γ一般也是取0.9

Tensorflow中RMSprop优化的函数为
tf.train.RMSPropOptimizer

而AdaDelta 是将超参数学习率η换成一个额外的状态变量Δθi-1 (下标为i-1) 在初始状态下赋值为0

公式: G = γG + (1-γ)f(θi)f(θi) (即f(θ)的平方) θi = θi - (√(Δθi-1 + ε)/√(G+ε))f(θi)

对比RMSprop来说就不需要设置学习率了

Tensorflow中Adadelta优化的函数为
tf.train.AdadeltaOptimizer

Adam算法

Adam算法全称自适应时刻估计方法(Adaptive Moment Estimation)

结合了Momentum和RMSprop算法的思想,可以计算每个参数的自适应学习率,也为其增加了动量项

公式: m = αm + (1-α)f(θ) ,G = βG + (1-β)f(θ)f(θ) (即f(θ)的平方)
m = m / (1-α) , G = G / (1-β) , θ = θ - ηm/√(G+ε)

一般α = 0.9 ,β = 0.999 , ε = 1e-8

与其他自适应学习率算法相比,Adam算法收敛速度更快,而且可以纠正其他优化问题,比如学习率消失、收敛速度过慢等等

Tensorflow中Adam优化的函数为
tf.train.AdamOptimizer

结语

在梯度下降算法中有很多优秀的算法值得学习,结合动量(Momentum)又更新学习率(Adagrad)等方法,经典又好用

现在可能没什么时间去对所有算法进行实例分析,有时间了做一个对比图给大家,当然网上也有许多实例三维对比动态酷炫帅气的图,可以去看看

嘿嘿~

嘿嘿

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值