目标函数优化中的三种梯度

最新推荐文章于 2024-08-03 15:42:15 发布

lishuandao

最新推荐文章于 2024-08-03 15:42:15 发布

阅读量8.1k

点赞数 1

分类专栏：信号处理

信号处理专栏收录该内容

7 篇文章 1 订阅

订阅专栏

原文出处：点击打开链接

考虑一个关于参数矩阵 W 的标量目标函数 J(W) 的极小化问题，即

W o p t = arg min W J (W)

通常，给定 W 的一个初值 W0 ，通过“迭代更新”的方法来搜索求解 Wopt 。设第 k 步迭代的矩阵为 W(k) ，则 W(k) 的迭代更新方程可表示为

W (k + 1) = W (k) + Δ W (k)

其中 ΔW(k) 为迭代“调整量”或“增量”。现在的问题是：如何选择 ΔW(k) ，使得上式能以最快的速度收敛到 Wopt ？

1. 基于“常规梯度”的调整量

“常规梯度”就是 J(W) 对 W 的微分，即 ∂J(W)/∂W 。选择

Δ W \propto - \partial J ( W ) \partial W

作为调整量，则

W (k + 1) = W (k) - α (k) \partial J ( W ) \partial W ∣ ∣ ∣ W = W (k)

在欧几里得正交坐标系里， “负”常规梯度方向是 J(W) 下降最快的方向，所以上式的更新方法称为“ 最陡下降法”。最陡下降法虽然简单，但是它的不足之处是：

（1）除非 J(W) 非常简单和光滑，否则最陡下降法将 W 引导至最接近的“局部”极值点，而不是“全局”最小点。而非二次型的目标函数具有很多的局部极大点或极小点，因此，初值 W0 的选择非常重要。

（2）如果 J(W) 在极小值附近比较平坦，则在 J(W) 接近最小点时， ∂J(W)/∂W 非常小（接近于0）。如果 α(k) 恒定或设置过小，导致在最小点附近收敛速度相当慢；反之， α(k) 设置过大，会导致过冲和不稳定，因此， α(k) 的选取也是一个比较困难的问题。

2. 基于“自然梯度”的调整量

在利用迭代更新方程对 W 进行更新时，一个非常“自然”的想法是：在保持 ∥ΔW∥2 不变的前提下，寻找一个最佳的方向，使得 J(W+ΔW) 最小。

Amari对这个想法进行了深入的研究，利用黎曼几何的有关理论证明，该最佳方向

不是“负”常规梯度方向，而是 “负”黎曼梯度！因此， ΔW 应选择为

Δ W \propto - \partial J ( W ) \partial W W T W

并将

\partial J ( W ) \partial W W T W

定义为 J(W) 的“ 自然梯度”。

3. 基于“相对梯度”的调整量

Cardoso等人从等变化性出发，给出了 J(W) 的“相对梯度”。其基本思想是：调整量 ΔW 正比于 W 自身，即 ΔW=DW ，选择适当的 D ，使得 J(W+ΔW) 最小。分析表明，当

D \propto - \partial J ( W ) \partial W W T

时， J(W+ΔW) 取得最小值，此时有

Δ W \propto - \partial J ( W ) \partial W W T W

Cardoso等人将

\partial J ( W ) \partial W W T

定义为 J(W) 的“ 相对梯度”。

比较常规梯度、自然地图和相对梯度可知：

（1）对于矩阵 W 的目标函数 J(W) ，基于“自然梯度”调整量和基于“相对梯度”调整量是等价的，表明自然梯度也具有等变化性。

（2）对于标量 w 的目标函数 J(w) 或向量 w 的目标函数 J(w) ，对于常规梯度、自然梯度和相对梯度的调整量基本上是等价的。

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。