梯度下降法学习总结

最新推荐文章于 2021-08-11 23:54:48 发布

rose_gong

最新推荐文章于 2021-08-11 23:54:48 发布

阅读量1.6k

点赞数 1

文章标签：凸优化梯度下降极值

本文链接：https://blog.csdn.net/rose_gong/article/details/44177947

版权

梯度下降法是求解无约束优化问题的迭代算法，每一步要求解目标函数的梯度向量。
假设目标函数 $f(x)$ 在实数域上具有一阶连续偏导数，无约束最优化问题为：

m i n x \in R n f (x)

$min_{x\in R^n}f(x)$ 。设

x∗ $x^*$ 是目标函数极小值点。选取适当的初值

x(0) $x^{(0)}$ ，不断迭代，更新

x $x$ 的值，直到梯度收敛/目标函数值收敛/ｘ的值收敛。在迭代的每一步，以负梯度方向更新ｘ的值（因为函数值沿负梯度方向下降最快）。
设第ｋ此迭代值为

x(k) $x^{(k)}$ ，

f(x) $f(x)$ 在

x(k) $x^{(k)}$ 附近一阶泰勒展开：

f (x) = f (x (k)) + g T k (x - x (k))

$f(x)=f(x^{(k)})+g_k^T(x-x^{(k)})$
其中

gk $g_k$ 是f

f(x) $f(x)$ 在

x(k) $x^{(k)}$ 的梯度。
用以下方法求下一次迭代值：

f (x (k) + λ k * (- g k)) = m i n λ \geq 0 f (x (k) + λ * (- g k))

$f(x^{(k)}+\lambda_k*(-g_k))=min_{\lambda \ge 0}f(x^{(k)}+\lambda*(-g_k))$
求出使得

f(x(k)+λk∗(−gk)) $f(x^{(k)}+\lambda_k*(-g_k))$ 最小的

λk $\lambda_k$ 后，令

x (k + 1) = x (k) + λ k * (- g k)

$x^{(k+1)}=x^{(k)}+\lambda_k*(-g_k)$

实现简单；
目标函数是凸函数时，能达到全局最优。

求梯度比较费时，收敛速度一般；
只能解无约束的优化问题；
目标函数非凸时，陷入局部最优。

输入：目标函数 $f(x)$ ，梯度函数 $g(x)$ ，计算精度 $\varepsilon$ ；
输出： $f(x)$ 极小值点 $x^*$ 。

$k=0$ ；随机产生 $x^{(0)}\in R$ ；
计算 $x^{(k)}$ 处的函数值 $f(x^{(k)})$
计算 $x^{(k)}$ 处的梯度值 $g(x^{(k)})$ ；如果 $g(x^{(k)})<\varepsilon$ ，停止迭代，令 $x^*=x^{(k+1)}$ ；否则，求 $\lambda_k$ ，使得 $f (x (k) + λ k * (- g k)) = m i n λ \geq 0 f (x (k) + λ * (- g k))$ $f(x^{(k)}+\lambda_k*(-g_k))=min_{\lambda \ge 0}f(x^{(k)}+\lambda*(-g_k))$
$x^{(k+1)}=x^{(k)}+\lambda_k*(-g_k)$ ，计算 $x^{(k+1)}$ 处的函数值 $f(x^{(k+1)})$ ；如果 $||f(x^{(k+1)})-f(x^{(k)})||<\varepsilon$ 　或者　 $||x^{(k+1)}-x^{(k)}||<\varepsilon$ ，停止迭代；令 $x^*=x^{(k+1)}$
否则，令 $k=k+1$ ，转3

关注