智能计算数学基础——下降法求解无约束条件优化问题

不一样的天蝎座

已于 2022-05-07 19:57:15 修改

阅读量180

点赞数

分类专栏：智能计算数学基础文章标签：智能计算数学基础无约束条件优化问题下降法梯度下降 Newton法

于 2021-07-10 10:16:16 首次发布

本文链接：https://blog.csdn.net/Mr____Cheng/article/details/118609616

版权

智能计算数学基础专栏收录该内容

6 篇文章 3 订阅

订阅专栏

1、无约束条件优化

考虑无约束条件优化问题： $\underset{x\in D}{minimize} f(x)$ 目标是找到一个 $x^*$ ，使得 $\forall x \in D,f(x^*)≤f(x)$ 。这里的 $x^*$ 是 $f (x)$ 的极小值点，也是优化问题的解。

一般优化问题是比较难求解的，常采用下降的方法。
即，从某一个起始点开始，一点一点地下降，去找 $x^*$ ，可以形式化表示为： $f(x_0)≥f(x_1)≥f(x_2)≥...≥f(x_k)≥f(x_{k+1})≥...$ ，在某一步之后，我们就认定 $x_k=x^*$ 。

2、下降法

2.1、下降法的核心问题

下降法的核心问题是：如何来下降。
在这里插入图片描述
从 $x$ 出发，找到一个偏移量 $\Delta x$ ，使得函数值是下降的，即： $f(x)≥f(x+\Delta x)$ 。
最简单的方法是：梯度下降。

2.2、梯度下降法（Gradient Descent，GD）

根据一阶Taylor展开，
当 $x$ 为一元变量， $\in R$ 时， $f(x+\Delta x)≈f(x)+f'(x)\Delta x$ ，其中， $x$ 为常量， $\Delta x$ 为变量。
其实，更常用的是 $x$ 为多元变量， $x\in R^n$ ，这时，
$f(x+\Delta x)≈f(x)+a^t\Delta x\tag{1}$ ，其中， $a=\nabla f(x)$ ，是一个常向量。
$f$ 在 $x$ 附近就近似地看成了一个线性函数。

下降要满足条件： $f(x)＞f(x+\Delta x)$ ，一个办法就是，使 $\Delta x$ 变化让 $f(x+\Delta x)$ 尽可能小即可。
梯度下降就是采用的这种方式，形式化表示为：
$\underset{||\Delta x|| ≤ \varepsilon}{min}f(x+\Delta x)\tag{2}$
其中， $\varepsilon$ 是给定的一个很小的正量， $||\Delta x|| ≤ \varepsilon$ 表示 $x+\Delta x$ 是在 $x$ 的附近取值。
当 $x$ 分别为一维、二维、三维时， $x+\Delta x$ 的范围如下图所示：
在这里插入图片描述
根据(1)(2)，可推导出
$\underset{||\Delta x|| ≤ \varepsilon}{min}f(x)+a^t\Delta x\tag{3}$
由于 $f (x)$ 是常量，所以有
(3) $\Leftrightarrow\underset{||\Delta x|| ≤ \varepsilon}{min}a^t\Delta x$ ，有解且有解析解。

解析解：解能以公式写出来。

由Cauchy不等式 $a,b>||^2≤||a||^2||b||^2$ 成立，当且仅当， $a, b$ 在一条直线上，即 $a, b$ 线性相关，继续往下推。
因此，使得 $a^t\Delta x=<a,\Delta x>≥-||a||·||\Delta x||≥-||a||·\varepsilon$ 成立的条件为， $a,\Delta x$ 线性相关，又由于 $<a,\Delta>$ 是一个负数，所以 $a,\Delta x$ 线性负相关，形式化表示为： $\Delta x = -\lambda a$
其中， $\lambda$ 是正数，为学习率， $a$ 为梯度。
总结： 梯度下降是怎么选 $\Delta x$ 的呢？即沿着负梯度方向走一点。

2.3、牛顿法（Newton法）

Newton法认为1阶Taylor展开并不是那么精确，采用2阶Taylor展开。
$f(x+\Delta x)≈f(x)+a^t\Delta x+\frac{1}{2}(\Delta x)^tp\Delta x\tag{4}$
其中， $a$ 为梯度， $p$ 是一个矩阵。
$\underset{||\Delta x|| ≤ \varepsilon}{min}f(x+\Delta x)\tag{5}$
$\underset{||\Delta x|| ≤ \varepsilon}{min}f(x)+a^t\Delta x+\frac{1}{2}(\Delta x)^tp\Delta x\tag{6}$
很显然， $f(x)+a^t\Delta x+\frac{1}{2}(\Delta x)^tp\Delta x$ 是一个关于 $\Delta x$ 的二次函数，Newton法是通过求这个二次函数的最小值，找到 $\Delta x$ 。