一般梯度
也称常规梯度,就是 f ( w ⃗ ) f(\vec w) f(w) 对 w ⃗ \vec w w 的偏导,即 ∂ f ( w ⃗ ) ∂ w ⃗ \frac{\partial f(\vec w)}{\partial\vec w} ∂w∂f(w),因为在欧式坐标系中,负梯度方向是下降最快的方向,即所谓的最速下降法。
随机梯度
和常规梯度很像,不同的是随机梯度会在 ∇ f ( w ⃗ ) \nabla f(\vec w) ∇f(w) 中随机挑选一个或多个方向进行下降。
相对梯度
增量 Δ w ⃗ = D w ⃗ \Delta\vec w=D\vec w Δw=Dw,选择适当的 D D D,使得 f ( w ⃗ + D w ⃗ ) f(\vec w+D\vec w) f(w+Dw) 最小。Cardoso 等人将 ∂ f ( w ⃗ ) ∂ w ⃗ w T \frac{\partial f(\vec w)}{\partial\vec w}w^T ∂w∂f(w)wT 定义为 f ( w ⃗ ) f(\vec w) f(w) 的相对梯度。
自然梯度
在保持 ∣ ∣ Δ w ⃗ ∣ ∣ 2 ||\Delta\vec w||^2 ∣∣Δw∣∣2 不变的前提下,寻找一个最佳的方向,使得 f ( w ⃗ + Δ w ⃗ ) f(\vec w+\Delta\vec w) f(w+Δw) 最小。Amari 利用黎曼几何的有关理论,证明该最佳方向不是 “负” 常规梯度方向,而是 “负” 黎曼梯度。并将 ∂ f ( w ⃗ ) ∂ w ⃗ w T w \frac{\partial f(\vec w)}{\partial\vec w}w^Tw ∂w∂f(w)wTw 定义为 f ( w ⃗ ) f(\vec w) f(w) 的自然梯度。