深度学习中的优化算法

最新推荐文章于 2023-06-16 20:16:22 发布

JRSHEN113

最新推荐文章于 2023-06-16 20:16:22 发布

阅读量1.7k

点赞数

分类专栏： Resource 文章标签：机器学习

Resource 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

在深度学习过程中经常会听到**优化算法云云，优化算法即通过迭代的方法计算目标函数的最优解，为什么要用到优化算法呢？

1、如果是凸优化问题，如果数据量特别大，那么计算梯度非常耗时，因此会选择使用迭代的方法求解，迭代每一步计算量小，且比较容易实现

2、对于非凸问题，只能通过迭代的方法求解，每次迭代目标函数值不断变小，不断逼近最优解

因此优化问题的重点是使用何种迭代方法进行迭代，即求迭代公式。下面简单介绍几种优化算法：梯度下降法，牛顿法，拟牛顿法，BFGS

梯度下降法：

　　梯度下降法是求解无约最优化问题的一种最常用的方法，设f(x)具有一阶连续偏导数的函数，要求解的无约束最优化问题是：

　　　　　　min f(x）

　　X*表示目标函数的的极小点。

主要核心思想：负梯度方向是使函数值下降最快的方向，在迭代的每一步以负梯度方向更新x的值，从而达到减少函数值的目的。

f(x）的一阶泰勒展开：

$f(x) = f(x_{k}) + g_{k}^{T}(x-x_k)$ ，g_k为Xk处的梯度方向

即函数在x处的值可以通过，Xk处的函数值与Xk处的梯度方向来表示，那么Xk+1可以由Xk与g_k来表示，即

$x^{(k+1)}\leftarrow x^k + \lambda_{k}p_{k}$ , Pk为搜索方向，取负梯度方向， $\lambda_{k}$ 为搜索步长，由一维搜索确定，即 $\lambda_{k}$ 使得：

$f(x^k+\lambda_{k}p_k) = min f(x_k + \lambda p_k)$

迭代公式： $x^{(k+1)}\leftarrow x^k + \lambda_{k}p_{k}$

当目标函数是凸函数时，梯度下降法的解是全局最优解。

由于使用梯度下降法时，每一步都需要计算在当前迭代值xk处的梯度值，而计算梯度需要使得全部样本进行计算，这样计算量将非常大，因此为了降低计算量，有人提出了随机梯度下降法，即每次随机选择一个样本计算梯度，大大提高了

计算速度。

牛顿法：

　　考虑约束问题

　　　　　　min f(x)

　　其中x*为目标函数的极小点。

　　f(x)的二阶泰勒展开：

$f(x) = f(x_k) + g_{k}^{T}(x-x_k) + \frac{1}{2}(x-x^k)^{T}H(x^k)(x-x_k)$ 式（1-1）

　　这里g_k是f(x)在梯度向量在点xk处的值，H（xk)是f(x)的海森矩阵在点xk处的值。函数有极值的条件的必要条件是在极值点处一阶导数为0，即梯度向量为0。

　　牛顿法利用极小点的必要条件：

$\bigtriangledown f(x) = 0$

每次迭代从点Xk开始，求目标函数的极小点，作为第k+1次迭代值x^(k+1),假设 $\bigtriangledown f(x^{k+1}) = 0$ ,由式（1-1）有

$\bigtriangledown f(x) = g_{k} + H_{k}(x-x^k)$ 式（1-2）

即 $g_{k} + H_{k}(x^{k+1}-x^k) = 0$ ,因此

$x^{k+1} = x^{k}-H_{k}^{-1}g_k$ 式（1-3）

式（1-3）即为牛顿法的迭代公式

拟牛顿法：

在牛顿法的迭代中，需要计算海赛矩阵的逆矩阵H^-1这一计算比较复杂，考虑用一个n阶矩阵来近似代替H^-1，这就是拟牛顿法的基本思路。

DFP(Davidon-Fletcher-Powell）使用一个n阶矩阵G_k+1来近似H^-1

BFGS(Broyden-Fletcher-Goldfarb-Shanno）使用一个n阶矩阵B_k来逼近H

L-BFGS（Limited -BFGS )：由于上述两种拟牛顿法都要保存一个n阶矩阵，对于内存消耗非常大，因此在此基础上提出了一种节约内存的方法L-BFGS

由于牛顿法的迭代公式 $x^{k+1} = x^{k}-H_{k}^{-1}g_k$ 有考虑目标函数的具体分布，因此相对于梯度下降算法收敛速度更快，在实际应用中经常使用LBFGS方法。

关于Conjugate Gradient方法，请参考博文http://www.cnblogs.com/dupuleng/articles/4165092.html

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。