原文出处:点击打开链接
考虑一个关于参数矩阵
W
的标量目标函数
J(W)
的极小化问题,即
Wopt=argminWJ(W)
通常,给定
W
的一个初值
W0
,通过“迭代更新”的方法来搜索求解
Wopt
。设第
k
步迭代的矩阵为
W(k)
,则
W(k)
的
迭代更新方程可表示为
W(k+1)=W(k)+ΔW(k)
其中
ΔW(k)
为迭代“调整量”或“增量”。现在的问题是:如何选择
ΔW(k)
,使得上式能以最快的速度收敛到
Wopt
?
1. 基于“常规梯度”的调整量
“常规梯度”就是
J(W)
对
W
的微分,即
∂J(W)/∂W
。选择
ΔW∝−∂J(W)∂W
作为调整量,则
W(k+1)=W(k)−α(k)∂J(W)∂W∣∣∣W=W(k)
在欧几里得正交坐标系里,
“负”常规梯度方向是
J(W)
下降最快的方向,所以上式的更新方法称为“
最陡下降法”。最陡下降法虽然简单,但是它的不足之处是:
(1)除非
J(W)
非常简单和光滑,否则最陡下降法将
W
引导至
最接近的“局部”极值点,而不是“全局”最小点。而非二次型的目标函数具有很多的局部极大点或极小点,因此,
初值
W0
的选择非常重要。
(2)如果
J(W)
在极小值附近比较平坦,则在
J(W)
接近最小点时,
∂J(W)/∂W
非常小(接近于0)。
如果
α(k)
恒定或设置过小,导致在最小点附近收敛速度相当慢;反之,
α(k)
设置过大,会导致过冲和不稳定,因此,
α(k)
的选取也是一个比较困难的问题。
2. 基于“自然梯度”的调整量
在利用迭代更新方程对
W
进行更新时,一个非常“自然”的想法是:在保持
∥ΔW∥2
不变的前提下,寻找一个最佳的方向,使得
J(W+ΔW)
最小。
Amari对这个想法进行了深入的研究,利用黎曼几何的有关理论证明,该最佳方向
不是“负”常规梯度方向,而是
“负”黎曼梯度!因此,
ΔW
应选择为
ΔW∝−∂J(W)∂WWTW
并将
∂J(W)∂WWTW
定义为
J(W)
的“
自然梯度”。
3. 基于“相对梯度”的调整量
Cardoso等人从等变化性出发,给出了
J(W)
的“相对梯度”。其基本思想是:调整量
ΔW
正比于
W
自身,即
ΔW=DW
,选择适当的
D
,使得
J(W+ΔW)
最小。分析表明,当
D∝−∂J(W)∂WWT
时,
J(W+ΔW)
取得最小值,此时有
ΔW∝−∂J(W)∂WWTW
Cardoso等人将
∂J(W)∂WWT
定义为
J(W)
的“
相对梯度”。
比较常规梯度、自然地图和相对梯度可知:
(1)对于矩阵
W
的目标函数
J(W)
,
基于“自然梯度”调整量和基于“相对梯度”调整量是等价的,表明自然梯度也具有等变化性。
(2)
对于标量
w
的目标函数
J(w)
或向量
w
的目标函数
J(w)
,对于常规梯度、自然梯度和相对梯度的调整量基本上是等价的。