无约束优化系列：（0）梯度下降法和牛顿法推导（收敛性证明）

最新推荐文章于 2023-08-20 22:03:38 发布

阿_牛

最新推荐文章于 2023-08-20 22:03:38 发布

阅读量1.1k

点赞数

分类专栏：机器学习文章标签：机器学习深度学习

本文链接：https://blog.csdn.net/iin729/article/details/116238929

版权

机器学习专栏收录该内容

11 篇文章 2 订阅

订阅专栏

文章目录

问题描述

对于无约束凸函数求最值问题：
$\quad f(x)$
$f (x)$ 为二次可微凸函数。我们假设该问题存在唯一最优解 $x^*$ ，既然 $f (x)$ 二次可微，则满足以下充要条件：
$f'(x^*)=0$

有时候，上式可以直接通过解析解求得最优解。但更多时候，无法求得解析解，如最小二乘的解析解里需要求逆，该逆不一定可以求出。此时，必须采用迭代算法，即计算一系列点 $x_{0},x_{1},x_{2},....x_{n}$ 的函数值 $f(x_n)$ ，来查找最接近 $x^*$ 的点，当 $f(x_{n})-f(x^*)<\epsilon$ 时，算法终止， $\epsilon$ 为容许误差值，此时 $x_{n}$ 为近似最优解 $x^*$ .

问题是：
如何获得这些近似点序列呢？前提是越往后的点，越接近最优值，即满足(假设是求最小值问题，最大值类似)：
$f(x_{n+1}) < f(x_{n})$
梯度下降法和牛顿法就是用来解决该问题。

泰勒公式

泰勒（Taylor）中值定理1：
如果函数 $f (x)$ 在 $x_0$ 处具有 $n$ 阶导数，那么存在 $x_0$ 的一个邻域，对于该邻域内的任一 $x$ ，有：
$f(x)=f(x_0) + \frac{f'(x_0)}{1!}(x-x_0) + \frac{f''(x_0)}{2!}(x-x_0)^2 +...+ \frac{f^n(x_0)}{n!}(x-x_0)^n + o((x-x_0)^n)$
其中：
$R_n(x)=o((x-x_0)^n)$

如何理解?
泰勒公式用于在给定了 $f (x)$ ，和一个初始点 $x_0$ ，自然， $f$ 对 $x_0$ 的 $n$ 阶导数可直接求出。此时，可间接求得 $x_0$ 附近的点 $x$ 的函数值，求解方法为用一个多项式函数(等号右侧的函数)，去近似这个复杂的目标函数(等号左侧的函数)，即多项式的值即为 $f (x)$ 的值。

梯度下降法

回到我们问题的目标：
计算一系列点 $x_{0},x_{1},x_{2},....x_{n}$ 的函数值 $f(x_n)$ ，来查找最接近 $x^*$ 的点，当 $f(x_{n})-f(x^*)<\epsilon$ 时，算法终止，这些点必须满足：
$f(x_{n+1}) < f(x_{n})$

假设:

$x_{0}$ 为第一个点，即初始点，由于 $f$ 形式为已知，所以 $f(x_0)$ 可求得，自然， $f$ 对 $x_0$ 的 $n$ 阶导数可直接求出。
$x$ 为下一个满足条件 $f(x_{n+1}) < f(x_{n})$ 的点

正向推导

根据泰勒公式，取前两项，可得：
$f(x)=f(x_0) + f'(x_0)(x-x_0)$

为了 $x$ 满足条件 $f(x_{n+1}) < f(x_{n})$ 即 $f(x) < f(x_{0})$ ,可得
$f'(x_0)(x-x_0) <0$
为了满足该条件，我们构造一个 $x$ ，很明显当:
$(x-x_0)= -\alpha f'(x_0),\quad \alpha>0$
时， $f(x)=f(x_0) + (-\alpha f'(x_0)^2)$
使得：
$f(x) < f(x_{0})$
这时满足条件的 $x$ 为：
$x_0-\alpha f'(x_0)$
写成迭代形式:
$x_{n+1}= x_n-\alpha f'(x_n)$

这就是 $x_n$ 的迭代公式，其中 $\alpha$ 为学习率，也叫步长或比例因子， $f'(x_0)$ 为搜索方向，也叫步径。这里搜索方向即为目标函数的一阶导数方向，所以该迭代求解方法也叫梯度下降法。

以上步骤是在一元函数上证明了梯度下降的有效性。容易推广到多元函数。

反向证明

假设：

当前点为 $x_0$
下一个迭代点为 $x_1=x_0+\Delta x$
$f$ 在 $x_0$ 处的导数值 $f'(x_0)=a$
$\Delta x$ 取 $f'(x_0)$ 的反方向，即 $\Delta x= - \alpha a$
$\alpha \geq 0$ ，为学习率

根据导数的定义：
$f(x_0) = {\lim_{\Delta x\to +\infty}} \frac{f(x_0+\Delta x) - f(x_0)}{\Delta x} =a$
$\Delta x$ 很小，但不会为零，所以将其乘到右边可得：
$f(x_0+\Delta x) - f(x_0) =-\alpha a^2$
$f(x_0+\Delta x) - f(x_0) =-\alpha a^2 \leq 0$
$f(x_0+\Delta x) \leq f(x_0)$
即：
$f(x_1) \leq f(x_0)$

即下一个迭代点更趋近最小值。

牛顿法

正向推导

根据泰勒公式，这次我们取前三项，可得：
$f(x)=f(x_0) + \frac{f'(x_0)}{1!}(x-x_0) + \frac{f''(x_0)}{2!}(x-x_0)^2 \quad (1)$

因为我们假设 $x$ 是比上一个迭代值 $x_0$ 更接近最小值，不妨假设 $x$ 就是最小值，此时，
$f^{'} (x) = 0$
即 $f(x_0) + \frac{f'(x_0)}{1!}(x-x_0) + \frac{f''(x_0)}{2!}(x-x_0)^2$ 对 $x$ 求导为0，即：
$f'(x_0)x + \frac{f''(x_0)}{2!}2x(x-x_0) = 0$
可得：
$x=x_0 - \frac{f'(x_0)}{f''(x_0)}$

写成迭代公式形式：
$x_{n+1}=x_n - \alpha \frac{f'(x_n)}{f''(x_n)},\quad \alpha>0$

对比可发现，牛顿法修正了梯度下降的方向。

反向推导

还可以将结果 $x-x_0 = - \frac{f'(x_0)}{f''(x_0)}$
反代入(1)式：
$f(x)=f(x_0) + \frac{f'(x_0)}{1!}(- \frac{f'(x_0)}{f''(x_0)}) + \frac{f''(x_0)}{2!}(- \frac{f'(x_0)}{f''(x_0)})^2 \quad$
$f(x)=f(x_0) - \frac{1}{2} \frac{f'(x_0)^2}{f''(x_0)} \quad$
$f(x)-f(x_0)= - \frac{1}{2} \frac{f'(x_0)^2}{f''(x_0)} \quad$

因为 $f$ 为凸函数，所以二阶导数：
$f''(x_0)\geq0$
所以：
$f(x)-f(x_0)= - \frac{1}{2} \frac{f'(x_0)^2}{f''(x_0)} \leq0$
$f(x)-f(x_0)\leq0$

上面的数学推导是用的一元函数，对于多元函数，这个分母存相当于要计算Hessian矩阵的逆矩阵，这是非常困难且耗费时间的。因此，很多牛顿算法的变形出现了，这类变形统称拟牛顿算法。BFGS是用迭代法去近似计算海森矩阵。而BFGS需要额外储存近似的那个海森矩阵，所以有了改进版L-BFGS。

参考：https://blog.csdn.net/qq_28739605/article/details/80862810

阿_牛

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
无约束优化系列：（0）梯度下降法和牛顿法推导（收敛性证明）

问题描述对于无约束凸函数求最值问题：minimizef(x)minimize \quad f(x)minimizef(x)f(x)f(x)f(x)为二次可微凸函数。我们假设该问题存在唯一最优解x∗x^*x∗，既然f(x)f(x)f(x)二次可微，则满足以下充要条件：f′(x∗)=0f'(x^*)=0f′(x∗)=0有时候，上式可以直接通过解析解求得最优解。但更多时候，无法求得解析解，如最小二乘的解析解里需要求逆，该逆不一定可以求出。此时，必须采用迭代算法，即计算一系列点x0,x1,x2,....
复制链接

扫一扫