目标函数优化中的三种梯度

原文出处:点击打开链接

 考虑一个关于参数矩阵  W  的标量目标函数  J(W)  的极小化问题,即

Wopt=argminWJ(W)

    通常,给定  W  的一个初值  W0  ,通过“迭代更新”的方法来搜索求解  Wopt  。设第  k 步迭代的矩阵为  W(k)  ,则  W(k)  的 迭代更新方程可表示为

W(k+1)=W(k)+ΔW(k)

其中  ΔW(k)  为迭代“调整量”或“增量”。现在的问题是:如何选择  ΔW(k)  ,使得上式能以最快的速度收敛到  Wopt  ?
1. 基于“常规梯度”的调整量
     “常规梯度”就是  J(W)  对  W  的微分,即  J(W)/W  。选择

ΔWJ(W)W

作为调整量,则

W(k+1)=W(k)α(k)J(W)WW=W(k)

    在欧几里得正交坐标系里, “负”常规梯度方向是  J(W)  下降最快的方向,所以上式的更新方法称为“ 最陡下降法”。最陡下降法虽然简单,但是它的不足之处是:
(1)除非  J(W)  非常简单和光滑,否则最陡下降法将  W  引导至 最接近的“局部”极值点,而不是“全局”最小点。而非二次型的目标函数具有很多的局部极大点或极小点,因此, 初值  W0  的选择非常重要
(2)如果  J(W)  在极小值附近比较平坦,则在  J(W)  接近最小点时,  J(W)/W 非常小(接近于0)。 如果  α(k)  恒定或设置过小,导致在最小点附近收敛速度相当慢;反之,  α(k)  设置过大,会导致过冲和不稳定,因此,  α(k)  的选取也是一个比较困难的问题。
2. 基于“自然梯度”的调整量
    在利用迭代更新方程对  W  进行更新时,一个非常“自然”的想法是:在保持  ΔW2 不变的前提下,寻找一个最佳的方向,使得  J(W+ΔW)  最小。
    Amari对这个想法进行了深入的研究,利用黎曼几何的有关理论证明,该最佳方向
不是“负”常规梯度方向,而是 “负”黎曼梯度!因此,  ΔW  应选择为

ΔWJ(W)WWTW

    并将

J(W)WWTW

定义为  J(W)  的“ 自然梯度”。
3. 基于“相对梯度”的调整量
    Cardoso等人从等变化性出发,给出了  J(W)  的“相对梯度”。其基本思想是:调整量  ΔW  正比于  W  自身,即  ΔW=DW  ,选择适当的  D  ,使得  J(W+ΔW)  最小。分析表明,当

DJ(W)WWT

时,  J(W+ΔW)  取得最小值,此时有

ΔWJ(W)WWTW

    Cardoso等人将

J(W)WWT

定义为  J(W)  的“ 相对梯度”。
    比较常规梯度、自然地图和相对梯度可知:
(1)对于矩阵  W  的目标函数  J(W)  , 基于“自然梯度”调整量和基于“相对梯度”调整量是等价的,表明自然梯度也具有等变化性。
(2) 对于标量  w  的目标函数  J(w)  或向量  w  的目标函数  J(w)  ,对于常规梯度、自然梯度和相对梯度的调整量基本上是等价的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值