标准梯度下降法

最新推荐文章于 2021-04-07 11:12:33 发布

信号傅老师

最新推荐文章于 2021-04-07 11:12:33 发布

阅读量1.1k

点赞数 2

分类专栏：机器学习文章标签：梯度算法优化算法机器学习基础

本文链接：https://blog.csdn.net/qq_36867398/article/details/95209655

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

标准梯度下降法

梯度下降法用于解无约束问题，是一种迭代算法，每一步要求解目标函数的梯度向量，具有实现简单的优点。

一阶泰勒展开

设 $f (x)$ 具有一阶连续偏导数，若第k次的迭代值为 $x^{(k)}$ ,则在 $x^{(k)}$ 处的一阶泰勒展开为
$f(x)=f(x^{(k)})+g_{k}^{T}*(x-x^{(k)})$
这里， $g_{k}=g(x^{(k)})=\nabla f(x^{(k)})$ ,即 $f (x)$ 在 $x^{(k)}$ 的梯度。

第k+1次的迭代值 $x^{(k+1)}$

$x^{(k+1)}=x^{(k)}+\lambda _{k}p_{k}$
其中 $p_{k}$ 是搜索方向，取负梯度方向 $p_{k}=-\nabla f(x^{k})$

$\lambda _{k}$ 的确定

$\lambda _{k}$ 是搜索步长，可由一维搜索确定，即 $p_{k}$ 方向的最优步长。
$f(x^{k}+\lambda _{k}p_{k})=\min_{\lambda \geq0}f(x^{k}+\lambda p_{k})$

算法步骤

input：目标函数 $f (x)$ ,梯度函数 $g(x)=\nabla f(x)$ ,计算精度 $\varepsilon$ ;
ooutput： $f (x)$ 的极小点 $x^*$
(1)取初值 $x^{(0)}\in \R^{n}$ ,置k=0;
(2)j计算 $f(x^{(k)})$
(3)计算梯度 $g_{k}=g(x^{(k)})$ ,当 $\|g_k\|<\varepsilon$ 时，停止迭代，令 $x^*=x^{(k)}$ ;否则，令 $p_k=-g(x^{(k)})$ ,求 $\lambda _k$ ,使
$f(x^{k}+\lambda _{k}p_{k})=\min_{\lambda \geq0}f(x^{k}+\lambda p_{k})$
(4)置 $x^{(k+1)}=x^{(k)}+\lambda _{k}p_{k}$ , 计算 $f(x^{(k+1)})）$
当 $\|f(x^{(k+1)})-f(x^{(k)})\| < \varepsilon$ 或 $\|x^{(k+1)}-x^{(k)}\| < \varepsilon$ 时，停止迭代，令 $x^*=x^{(k+1)}$
(5)否则，置k = k+1,转（3）。

注意

当目标函数是凸函数时，梯度下降法的解一定是全局最优。否则，容易陷入局部最优解。

信号傅老师

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
标准梯度下降法

标准梯度下降法梯度下降法是一种迭代算法，用于解无约束问题，每一步要解目标函数的梯度向量。一阶泰勒展开设f(x)f(x)f(x)具有一阶连续偏导数，若第k次的迭代值为x(k)x^{(k)}x(k),则在x(k)x^{(k)}x(k)处的一阶泰勒展开为f(x)=f(x(k))+gkT∗(x−x(k))f(x)=f(x^{(k)})+g_{k}^{T}*(x-x^{(k)})f(x)=f(x...
复制链接

扫一扫