优化问题综述(一)无约束最优化问题的解法中用于神经网络的常见算法

最新推荐文章于 2024-05-17 19:04:26 发布

SrdLaplaceGua

最新推荐文章于 2024-05-17 19:04:26 发布

阅读量3.6k

点赞数 2

分类专栏：机器学习实用技巧文章标签：梯度下降 tensorflow 凸优化优化算法深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/SrdLaplace/article/details/82221493

版权

优化问题是解决形如

m i n x g (x) + h (x), s . t ., x \in X

$min_x g(x)+h(x),s.t.,x\in X$

的问题， $g(x)$ 是损失函数， $h(x)$ 是正则化约束， $X$ 是可行域。
我们令 $f(x)=g(x)+h(x)$ ，对 $f(x)$ 已知信息的多少可把这个问题分为

2阶问题：已知 $f(x)$ 的函数值、1阶、2阶导数（值、梯度、hessen矩阵）
1阶问题：已知 $f(x)$ 的函数值、1阶导数（值、梯度）
0阶问题：只知道 $f(x)$ 的函数值（值）
-1阶问题：只知道 $f(x)$ 的估计值 $F[f(x),\xi]$

当可行域 $X$ 为整个空间时，优化问题被成为无约束的最优化问题；当可行域 $X$ 受到限制时，优化问题被成为有约束的最优化问题。

无约束最优化问题的解法

我们希望得到 $min_x f(x)$ ，我们把 $f(x)$ 泰勒展开可得

f (x + Δ) = f (x) + \nabla f (x) T Δ + Δ T \nabla 2 f (x) Δ + O (Δ 3)

$f(x+\Delta)=f(x)+\nabla f(x)^T\Delta+\Delta^T \nabla^2 f(x)\Delta+O(\Delta^3)$

1阶问题中用于神经网络的常见算法

当 $\nabla f(x)$ 已知时，我们可知，将 $x$ 往与 $\nabla f(x)$ 相反的方向走一小步 $\Delta$ ， $f(x+\Delta)$ 会下降，那么我们可以得到递推公式

x t + 1 = x t - η \nabla f (x t)

$x_{t+1}=x_t-\eta\nabla f(x_t)$

$\eta$ 为步长大小。观察递推公式，我们可知可以从步长 $\eta$ 和梯度 $\nabla f(x_t)$ 进行优化。

Gradient Descent Optimizer

tf.train.GradientDescentOptimizer(learning_rate, name=’GradientDescent’)

最朴素的算法，直接利用梯度递推公式进行优化，步长可为定值或指数衰减。
他的缺点很明显：

很难选择出合适的学习率
相同的学习率并不适用于所有的参数
在神经网络中，非凸问题关键是要避免陷入局部最小值或自鞍点，梯度下降法并不能很好的解决

Momentum Optimizer

tf.train.MomentumOptimizer(learning_rate, momentum, use_nesterov=False, name=’Momentum’)

添加上步的更新分量到当前，可以一定程度上避免陷入局部最小值或自鞍点。直观的理解就是给运动加上了惯性。与梯度下降相比，加速收敛，提高精度(减少收敛过程中的振荡)。递推公式为

V (t) = γ V (t - 1) + (1 - γ) \nabla f (x t)

$V(t)=\gamma V(t-1)+(1-\gamma)\nabla f(x_t)$

x t + 1 = x t - η V (t)

$x_{t+1}=x_t-\eta V(t)$

$\gamma$ 一般设置为0.9。

Nesterov Momentum Optimizer

tf.train.MomentumOptimizer(learning_rate, momentum, use_nesterov=True, name=’Momentum’)

添加上步的更新分量到当前，并预测下一时刻的动量来修正。递推公式为

V (t) = γ V (t - 1) + (1 - γ) \nabla f (x t - η V (t - 1))

最低0.47元/天解锁文章

关注

2
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
优化问题综述(一)无约束最优化问题的解法中用于神经网络的常见算法

优化问题是解决形如 minxg(x)+h(x),s.t.,x∈Xminxg(x)+h(x),s.t.,x∈Xmin_x g(x)+h(x),s.t.,x\in X的问题，g(x)g(x)g(x)是损失函数，h(x)h(x)h(x)是正则化约束，XXX是可行域。我们令f(x)=g(x)+h(x)f(x)=g(x)+h(x)f(x)=g(x)+h(x)，对f(x)f(x)f(x)已知信息的多...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。