优化

最新推荐文章于 2024-06-11 00:04:03 发布

skywalkerai

最新推荐文章于 2024-06-11 00:04:03 发布

阅读量270

点赞数

分类专栏：优化方法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/YWDB2012/article/details/53037872

版权

优化方法专栏收录该内容

1 篇文章 0 订阅

订阅专栏

问题描述

求解优化问题

min f (w), w \in R n

$\begin{equation} \min f(w), w \in R^n \end{equation}$

f(w) 具有连续一阶偏导

梯度下降（GD）

梯度下降的计算步骤如下：

-给定初点 $\omega^{(1)}$ , 允许误差 $\epsilon$ , 置 $k = 1$

-计算梯度方向 $g^{(k)} = \bigtriangledown f(w^{k})$

-若 $\lVert g^{(k)} \rVert < \epsilon$ , 停止计算, 否则，继续计算 $w^{(k + 1)} = w^{(k)} - \eta g^{(k)}$ , $k=k+1$ , 转步骤 2

随机梯度下降（SGD）

随机梯度下降法的计算步骤如下：
1. 给定初始点 $\omega^{(1)}$ , 允许误差 $\epsilon$ , 置 $k = 1$

2.进行第 $k$ 轮计算迭代：

对于第 $i$ 个样本，计算梯度方向 $g^{(k)}_i = \bigtriangledown f(w^{k})_i$
- 计算第 $i$ 个样本，计算 $w^{(k)} = w^{(k)} - \eta g^{(k)}_i$
- 3.第 $k$ 轮迭代，计算完所有的样本之后， $w^{(k+1)}=w^{k}$ ，如果 $\lVert w^{(k+1)} - w^{(k)}\rVert < \epsilon$ ，停止计算，否则，继续步骤 2
  
  牛顿法
  
  假设 $f(w)$ 是二次可微实函数，我们把 $f(w)$ 在 $w^{(k)}$ 展开成Talyor级数，并取二阶近似：
  
  $f (w) \approx ϕ (w) = f (w (k + 1)) + ▽ f (w (k)) (w - w (k)) + 1 2 (x - x (k)) ▽ 2 f (w k) (x - x (k)),$ $\begin{equation} f(w) \approx \phi(w) = f(w^{(k+1)}) + \bigtriangledown f(w^{(k)})(w - w^{(k)}) + \frac{1}{2} (x - x^{(k)})\bigtriangledown ^ 2 f(w^{k})(x - x^{(k)}), \end{equation}$
  其中 $\bigtriangledown ^2 f(w^{(k)})$ 是 $f(w)$ 在 $w^{(k+1)}$ 处的 $Hesse$ 矩阵，为求 $\phi (w)$ 的平稳点，令
  $▽ ϕ (w) = 0$ $\begin{equation} \bigtriangledown \phi(w) = 0 \end{equation}$
  即，
  $▽ ϕ (w (k)) + ▽ 2 f (w (k)) (w - w (k)) = 0$ $\begin{equation} \bigtriangledown \phi(w^{(k)}) + \bigtriangledown ^ 2 f(w^{(k)})(w - w^{(k)}) = 0 \end{equation}$
  设 $\bigtriangledown ^ 2 f(w^{(k)})$ 可逆，得到牛顿法的迭代公式，
  $w (k + 1) = x (k) - ▽ 2 f (w (k)) - 1 ▽ f (x (k)),$ $\begin{equation} w^{(k+1)} = x^{(k)} - \bigtriangledown ^2 f(w^{(k)}) ^ {-1} \bigtriangledown f(x^{(k)}), \end{equation}$
  其中 $\bigtriangledown ^2 f(w^{(k)}) ^ {-1}$ 是Hesse矩阵 $\bigtriangledown ^ 2 f(w^{(k)})$ 的逆矩阵。
  
  因此牛顿法的迭代公式可写为，
  
  $w (k + 1) = w (k) - η H (k) g (k)$ $\begin{equation} w^{(k+1)} = w^{(k)} - \eta {H^{(k)}} g^{(k)} \end{equation}$
  其中 $H^{(k)}$ 为Hesse矩阵的逆， $g^{(k)}$ 为一阶梯度。
  
  拟牛顿法
  
  牛顿法中需要求Hesse矩阵的逆，计算量增大，在拟牛顿法中，我们计算Hesse逆矩阵的近似来代替Hesse矩阵的逆：
  
  $▽ 2 f (w (k + 1)) (w (k) - w (k + 1)) = ▽ f (w (k + 1)) - ▽ f (w (k))$ $\begin{equation} \bigtriangledown^2 f(w^{(k+1)})(w^{(k)} - w^{(k+1)}) = \bigtriangledown f(w^{(k+1)}) - \bigtriangledown f(w^{(k)}) \end{equation}$
  $H (k + 1) (w (k) - w (k + 1)) = ▽ f (w (k + 1)) - ▽ f (w (k))$ $\begin{equation} H^{(k+1)}(w^{(k)} - w^{(k+1)}) = \bigtriangledown f(w^{(k+1)}) - \bigtriangledown f(w^{(k)}) \end{equation}$
  其中 $H^{(k)}$ 为Hesse逆矩阵的近似。
  
  BFGS
  
  $H^{(k)}$ 的更新形式为，
  
  $H (k + 1) = V (k) T H (k) V (k) + ρ (k) s (k) s (k) T$ $\begin{equation} H^{(k+1)} = {V^{(k)}}^TH^{(k)}V^{(k)} + \rho ^{(k)} s^{(k)} {s^{(k)}}^T \end{equation}$
  其中， $\rho^{(k)}=\frac{1}{{y^{(k)}}^Ts^{(k)}}$ ， $V^{(k)} = I - \rho^{(k)}y^{(k)}{s^{(k)}}^T$ , $s^{(k)} = w^{(k+1)} - w^{(k)}$ , $y^{(k)} = \bigtriangledown f(w^{(k+1)}) - \bigtriangledown f(w^{(k)})$ 。
  
  最终的迭代形式如下，
  
  $H (k + 1) = H (k) + 1 s ( k ) T y ( k ) (1 + y ( k ) T H ( k ) y ( k ) s ( k ) T y ( k )) s (k) s (k) T - 1 s ( k ) T y ( k ) (s (k) y (k) T H (k) + H (k) y (k) s (k) T)$ $\begin{equation} H^{(k+1)} = H^{(k)} + \frac{1}{{s^{(k)}}^Ty^{(k)}}(1 + \frac{{y^{(k)}}^TH^{(k)}y^{(k)}}{{s^{(k)}}^Ty^{(k)}})s^{(k)}{s^{(k)}}^T - \frac{1}{{s^{(k)}}^Ty^{(k)}}(s^{(k)}{y^{(k)}}^TH^{(k)} + H^{(k)}y^{(k)}{s^{(k)}}^T) \end{equation}$
  
  随着迭代的进行， $H^{(k)}$ 会变得越来越稠密，当问题规模较大时，存储和计算 $H^{(k)}$ 会变得越来越不可行。
  
  参考
  
  L-BFGS
  
  L-BFGS算法是限定内存的BFGS算法。由于存储 $H^{(k)}$ 耗费较多的空间，因此L-BFGS算法存储有限次的 $\{s^{(k)},y^{(k)}\}$ 。
  
  详细的内容参考1和2
  
  Coordinate Gradient
  
  参考
  
  FTRL

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。