牛顿法和梯度下降法

最新推荐文章于 2023-06-29 11:27:48 发布

lsjmax

最新推荐文章于 2023-06-29 11:27:48 发布

阅读量500

点赞数

文章标签：梯度下降牛顿法优化算法

本文链接：https://blog.csdn.net/lsjmax/article/details/101064506

版权

机器学习基本就是把问题转化成某个损失函数，然后求极值。函数的极值分为全局极值和局部极值，两种都满足一个条件 $f^{\prime}=0$ 或 $\nabla f=0$ 。

牛顿法：二阶泰勒级数逼近

单元函数

在初始值 $x_0$ 附近，将 $f (x)$ 进行二阶泰勒展开， $f(x_0+△x)=f(x_0)+f^{\prime}(x_0)△x+{1\over2}f^{\prime\prime}(x_0)△x^2+o(△x^2)$
$f(x_0+△x)=g(△x)+o(△x^2)$
$g (△ x)$ 是二次函数，对它进行求导，令导数等于0，即可求导极值点，因为是二次函数，所以不确定是极大还极小。

$g (△ x)$ 极值点为 $-{f^{\prime}(x_0)\over {f^{\prime\prime}(x_0)}}$ ，由于 $f (x)$ 和 $g (△ x)$ 只相差一个 $o(△x^2)$ ，因此 $f (x)$ 在 $x_0$ 附近这一很小很小的局部内的极值点为 $x=x_0-{f^{\prime}(x_0)\over {f^{\prime\prime}(x_0)}}$
通过迭代可得 $x_n=x_{n-1}-{f^{\prime}(x_{n-1})\over {f^{\prime\prime}(x_{n-1})}}$ ,通过一步一步迭代，就能够求出在一个较大的局部范围内， $f (x)$ 的极值点。

多元函数

在实际应用中，往往是解决多元函数的问题。多元函数是用向量和矩阵进行表示运算。
$f(\vec{x})=f(\vec{x_0})+g^T(\vec{x}-\vec{x_0})+{1\over2}(\vec{x}-\vec{x_0})^TH(\vec{x}-\vec{x_0})+o()$
其中， $g^T=[{\partial f(\vec{x)}\over{x_1}} ,{\partial f(\vec{x)}\over{x_2}},...,{\partial f(\vec{x_n)}\over{x_n}}]$
$f (x)$ 的梯度。 $H$ 为hassion矩阵，函数的二阶偏导数。
$H=\begin{bmatrix} {{\partial ^2f(\vec{x})} \over {\partial{x_1}{\partial{x_1}}}}&{{\partial ^2f(\vec{x})} \over {\partial{x_1}{\partial{x_2}}}}&{\cdots}&{{\partial ^2f(\vec{x})} \over {\partial{x_1}{\partial{x_n}}}}\\ {{\partial ^2f(\vec{x})} \over {\partial{x_2}{\partial{x_1}}}}&{{\partial ^2f(\vec{x})} \over {\partial{x_2}{\partial{x_2}}}}&{\cdots}&{{\partial ^2f(\vec{x})} \over {\partial{x_2}{\partial{x_n}}}}\\ {\vdots}&{\vdots}&{\ddots}&{\vdots}\\ {{\partial ^2f(\vec{x})} \over {\partial{x_n}{\partial{x_1}}}}&{{\partial ^2f(\vec{x})} \over {\partial{x_n}{\partial{x_2}}}}&{\cdots}&{{\partial ^2f(\vec{x})} \over {\partial{x_n}{\partial{x_n}}}}\\ \end{bmatrix}$
由单元函数可得，多元函数极值点迭代公式：
$\vec{x_n}=\vec{x_{n-1}}-{{H(\vec{x_{n-1}}) }\over g(\vec{x_{n-1}})}$

梯度下降法：一阶逼近

梯度下降用于多元函数，采用一阶逼近。

$f(\vec{x})=f(\vec{x_0})+g^T(\vec{x}-\vec{x_0})+o(\vec{x}-\vec{x_0})$
梯度下降法采用是一阶逼近，线性逼近，无法通过求导令导数等于0来获取极值，只能沿着梯度反方向 $- g$ （求最小值）一点点尝试靠近。
$\vec{x_n}=\vec{x_{n-1}}-l\vec{x_{n-1}}g(\vec{x_{n-1}})^T$
其中 $l$ 为学习率，控制着往梯度方向移动的步伐大小，取值过小，移动过慢，收敛速度就慢，但是取值大了，可能跳过极值点，倒是不收敛。