优化理论——迭代方法

mpmt91

已于 2024-07-15 18:34:32 修改

阅读量568

点赞数 11

分类专栏：人工智能机器学习文章标签：机器学习人工智能

于 2024-07-15 10:03:52 首次发布

本文链接：https://blog.csdn.net/mp9105/article/details/140430520

版权

人工智能同时被 2 个专栏收录

3 篇文章 0 订阅

订阅专栏

机器学习

2 篇文章 0 订阅

订阅专栏

线性回归建模

训练，预测

${(x^{(i)},y^{(i)})\}$ ⼀个训练样本， $\{(x^{(i)},y^{(i)});i=1,\cdots ,N\}$ 训练样本集
$\{(x_1^{(i)},x_2^{(i)},y^{(i)})\}\longrightarrow\{(\mathbf{x}^{(i)},y^{(i)})\},\mathbf{x}^{(i)}=[\begin{array}{c}x_1^{(i)}\\x_2^{(i)}\end{array}]$
试图学习
- 一维： $f (x) = w x + b$ 使得 $f(x^{(i)}) \approx y^{(i)}$
- 多维： $f(x)=\mathbf{w}^T \mathbf{x}+b$ 使得 $f(\mathbf{x}^{(i)}) \approx y^{(i)}$
  核心问题在于如何学习？

⽆约束优化梯度分析法

无约束优化问题

⾃变量为标量的函数 $f$ ： $\mathbf{R} \rightarrow \mathbf{R}$
$\min f(x) \quad x \in \mathbf{R}$
⾃变量为标量的函数 $f$ ： $\mathbf{R}^n \rightarrow \mathbf{R}$
$\min f(x) \quad \mathbf{x} \in \mathbf{R}^n$
Contour（等高图）

优化问题可能的极值点情况

梯度和 Hessian 矩阵

一阶导数和梯度（gradient vector）
$f'(x);\mathbf{g}\left(\mathbf{x}\right)=\nabla f(\mathbf{x})=\frac{\partial f(\mathbf{x})}{\partial\mathbf{x}}=\left[\begin{array}{c}\frac{\partial f(\mathbf{x})}{\partial x_1}\\\vdots\\\frac{\partial f(\mathbf{x})}{\partial x_n}\end{array}\right]$
⼆阶导数和 Hessian 矩阵
$f''(x);\left.\mathbf{H}\left(\mathbf{x}\right)=\nabla^{2}f\left(\mathbf{x}\right)=\left[\begin{array}{ccccc}\frac{\partial^{2}f(\mathbf{x})}{\partial x_{1}^{2}}&\frac{\partial^{2}f(\mathbf{x})}{\partial x_{1}\partial x_{2}}&\cdots&\frac{\partial^{2}f(\mathbf{x})}{\partial x_{1}\partial x_{n}}\cdots\\\frac{\partial^{2}f(\mathbf{x})}{\partial x_{2}\partial x_{1}}&\frac{\partial^{2}f(\mathbf{x})}{\partial x_{2}^{2}}\\&&\ddots\\\frac{\partial^{2}f(\mathbf{x})}{\partial x_{n}\partial x_{1}}&\frac{\partial^{2}f(\mathbf{x})}{\partial x_{n}\partial x_{2}}&&\frac{\partial^{2}f(\mathbf{x})}{\partial x_{n}^{2}}\end{array}\right.\right]=\nabla\left(\nabla f(\mathbf{x})\right)^{T}$

二次型

给定矩阵 $\in \mathbf{R}^{n\times n}$ ，函数
$\mathbf{x}^{T}\mathbf{A}\mathbf{x}=\sum_{i=1}^{n}x_{i}\left(\mathbf{A}\mathbf{x}\right)_{i}=\sum_{i=1}^{n}x_{i}\left(\sum_{j=1}^{n}a_{ij}x_{j}\right)=\sum_{i=1}^{n}\sum_{j=1}^{n}x_{i}x_{j}a_{ij}$
被称为⼆次型。

例：对于 $f\left(\mathbf{x}\right)=x_1^2+x_2^2+x_3^2$ ，可以写成下面的二次型：
$\begin{aligned} f(x_1,x_2,x_3)=\begin{bmatrix}x_1,x_2,x_3\end{bmatrix}\begin{bmatrix}1&0&0\\0&1&0\\0&0&1\end{bmatrix}\begin{bmatrix}x_1\\x_2\\x_3\end{bmatrix} \end{aligned}$

矩阵求导案例

向量 $\mathbf{a}$ 和 $\mathbf{x}$ 无关，则 $\nabla\left(\mathbf{a}^T\mathbf{x}\right)=\mathbf{a},\nabla^2\left(\mathbf{a}^T\mathbf{x}\right)=\mathbf{0}$
对称矩阵矩阵 $\mathbf{A}$ 和 $\mathbf{x}$ ⽆关，则 $\nabla\left(\mathbf{x}^T\mathbf{A}\mathbf{x}\right)=\mathbf{2}\mathbf{A}\mathbf{x}, \nabla^2\left(\mathbf{x}^T\mathbf{A}\mathbf{x}\right)=2\mathbf{A}$
最小二乘
$\begin{aligned} f(\mathbf{x})& =||\mathbf{Ax}-\mathbf{b}||_2^2 =\mathbf{x}^T\mathbf{A}^T\mathbf{A}\mathbf{x}-2\mathbf{b}^T\mathbf{A}\mathbf{x}+\mathbf{b}^T\mathbf{b} \\ \nabla f(\mathbf{x})&=2\mathbf{A}^T\mathbf{A}\mathbf{x}-2\mathbf{A}^T\mathbf{b} \end{aligned}$

详细求解可以参考《矩阵论》教材

泰勒级数

泰勒级数展开

输⼊为标量的泰勒级数展开
$f(x_k+\delta)\thickapprox f(x_k)+f^{\prime}\left(x_k\right)\delta+\frac12f^{\prime\prime}\left(x_k\right)\delta^2+\cdots+\frac1{k!}f^k\left(x_k\right)\delta^k+\cdots$
输⼊为向量的泰勒级数展开
$f(\mathbf{x}_k+\boldsymbol{\delta})\boldsymbol{\approx}f(\mathbf{x}_k)+\mathbf{g}^T(\mathbf{x}_k)\boldsymbol{\delta}+\frac12\boldsymbol{\delta}^T\mathbf{H}\left(\mathbf{x}_k\right)\boldsymbol{\delta}$

泰勒级数与极值

标量情况
输入为标量的泰勒级数展开
$f(x_k+\delta)\approx f(x_k)+f'\left(x_k\right)\delta+\frac12f''\left(x_k\right)\delta^2$
严格局部极小点： $f(x_k+\delta)>f(x_k)$
称满足 $f'(x_k)=0$ 的点为平稳点（候选点）； $f'(x_k)=0$ 并不能推出为极小值

函数在 $x_k$ 有严格局部极⼩值条件为 $f'\left(x_k\right)=0\text{ 且 }f''\left(x_k\right)>0$
向量情况
输入为向量的泰勒级数展开
$f(\mathbf{x}_k+\boldsymbol{\delta})\boldsymbol{\approx}f(\mathbf{x}_k)+\mathbf{g}^T(\mathbf{x}_k)\boldsymbol{\delta}+\frac12\boldsymbol{\delta}^T\mathbf{H}\left(\mathbf{x}_k\right)\boldsymbol{\delta}$
称满足 $\mathbf{g}\left(\mathbf{x}_k\right)=0$ 的点为平稳点 (候选点)，此时如果有
$\mathbf{H}\left(\mathbf{x}_{k}\right)\succ0$ ， $\mathbf{x}_k$ 为⼀严格局部极⼩点 (反之，严格局部最⼤点)
如果 $\mathbf{H}\left(\mathbf{x}_{k}\right)$ 为不定矩阵，则是⼀个鞍点（saddle point）

梯度为0求解的局限性

计算 $f(x) = x^4 + \sin(x^2) - \ln(x)e^x+ 7$ 的导数 $\begin{aligned} f^{\prime}(x)& =4x^{(4-1)}+\frac{d\left(x^{2}\right)}{dx}\cos(x^{2})-\frac{d\left(\ln x\right)}{dx}e^{x}-\ln(x)\frac{d\left(e^{x}\right)}{dx}+0 \\ &=4x^3+2x\cos(x^2)-\frac{1}{x}e^x-\ln(x)e^x \end{aligned}$ 可以看到常规方法无法求解 $f^{'} (x) = 0$ 的点

⽆约束优化迭代法

迭代法的基本结构

step1：选择⼀个初始点，设置⼀个 convergence tolerance $\epsilon$ ，计数 $k = 0$
step2：决定搜索⽅向 $\mathbf{d}_k$ , 使得函数下降 （核心）
step3：决定步⻓ $\alpha_k$ 使得 $f(\mathbf{x}_k+\alpha_k\mathbf{d}_k)$ 对于 $\alpha_k \ge0$ 最⼩化，构建 $\mathbf{x}_{k+1}=\mathbf{x}_k+\alpha_k\mathbf{d}_k$
step4：如果 $\|\mathbf{d}_k\| \le \epsilon$ ，则停⽌输出解 $\mathbf{x}_{k+1}$ ；否则继续重复迭代

梯度下降法

取 $\mathbf{d}_k=-\mathbf{g}(\mathbf{x}_k)$ ，思考为什么这么取？
$f(\mathbf{x}_k+\mathbf{d}_k)\approx f(\mathbf{x}_k)+\mathbf{g}^T(\mathbf{x}_k) \mathbf{d}_k$

需要 $f(\mathbf{x}_k+\mathbf{d}_k)\downarrow$ ，则 $f(\mathbf{x}_k)$ 加个负数
回忆两个向量的内积， $\mathbf{a}\cdot\mathbf{b}=\mathbf{a}^T\mathbf{b}=\|a\|\|b\|\cos\theta$

牛顿法

方向选取

方向选取 $\mathbf{d}_{k}=-\mathbf{H}^{-1}\left(\mathbf{x}_{k}\right)\mathbf{g}\left(\mathbf{x}_{k}\right)$
方向选取依据
$f(\mathbf{x}_k+\mathbf{d}_k)=f(\mathbf{x}_k)+\mathbf{g}^T(\mathbf{x}_k) \mathbf{d}_k+\frac{1}{2}\mathbf{d}_k^T\mathbf{H}\left(\mathbf{x}_k\right)\mathbf{d}_k$
令 $\frac{\partial f(\mathbf{x}_k+\mathbf{d}_k)}{\partial\mathbf{d}_k}=\mathbf{0}\Rightarrow\mathbf{g}\left(\mathbf{x}_k\right)+\mathbf{H}\left(\mathbf{x}_k\right)\mathbf{d}_k=\mathbf{0}$

若 Hessian 矩阵正定，则有 $\mathbf{d}_{k}=-\mathbf{H}^{-1}\left(\mathbf{x}_{k}\right)\mathbf{g}\left(\mathbf{x}_{k}\right)$
强制要求 Hessian 矩阵正定：参考泰勒展开极值情况讨论

关键点

实际⼯程中 Hessian 矩阵 $\mathbf{H}$ 很难求， $\mathbf{H}^{-1}$ 更加难求
解决思路：

修正⽜顿法：当 Hessian 矩阵不是正定矩阵时，可对 Hessian 矩阵进⾏修正： $\mathbf{H}(\mathbf{x}_k)+\mathbf{E}$ ，典型的⽅法 $\mathbf{E}=\delta\mathbf{I}, \delta>0$ 很小
$+\delta\mathbf{I}$ 可以使得特征值增加，从而使得 $\mathbf{H}$ 变为正定
拟⽜顿法（Quasi-Newton methods）

拟牛顿法

核心思想

统一深度下降法和牛顿法：
$\mathbf{d}_k=-\mathbf{S}_k\mathbf{g}_k$
其中 $\mathbf{S}_k=\begin{cases}\mathbf{I}&\text{steepest}\\\mathbf{H}_k^{-1}&\text{Newton}\end{cases}$
不直接求 $\mathbf{H}_k^{-1}$ ，尝试用一个正定矩阵逼近 $\mathbf{H}_k^{-1}$ （一阶的量慢慢近似二阶的量）
定义 $\delta _k= \mathbf{x} _{k+ 1}- \mathbf{x} _k$ ， $\gamma _k= \mathbf{g} _{k+ 1}- \mathbf{g} _k$
需要 $\mathbf{S}_{k+1}\boldsymbol{\gamma}_k=\boldsymbol{\delta}_k$ ，为什么？
但是，只有 $\delta_k$ 和 $\gamma_k$ 是不可能计算出 $\mathbf{S}_{k+1}$ 的，继续用迭代的方法.

DFP

给定初始正定对称矩阵 $\mathbf{S}_0=\mathbf{I}$
$\mathbf{S} _{k+ 1}= \mathbf{S} _{k}+ \Delta \mathbf{S} _{k}$ , $\cdots$
$\Delta\mathbf{S}_{k}=\alpha\mathbf{uu}^{T}+\beta\mathbf{v}\mathbf{v}^{T}$ ，因此
$\mathbf{S}_{k+1}=\mathbf{S}_k+\alpha\mathbf{u}\mathbf{u}^T+\beta\mathbf{v}\mathbf{v}^T$
两边乘以 $\gamma_k$ ，有 $\delta _k= \mathbf{S} _k\gamma _k+\underbrace{\left(\alpha \mathbf{u}^T\boldsymbol{\gamma}_k\right) }_{{\mathrm{1}}}\mathbf{u}+\underbrace{\left(\beta \mathbf{v} ^T\boldsymbol{\gamma}_k\right) }_{{\mathrm{-1}}}\mathbf{v} = \mathbf{S} _k\mathbf{\gamma}_k+\mathbf{u}-\mathbf{v}$
其中， $\left(\mathbf{uu}^{T}\boldsymbol{\gamma}_k\right)^T=\left(\boldsymbol{\gamma}_k^T\mathbf{u}\right)\mathbf{u}^{T}=(\boldsymbol{\mathbf{u}^{T}\gamma}_k)\mathbf{u}^{T}$ ，于是 $\mathbf{uu}^{T}\boldsymbol{\gamma}_k=(\boldsymbol{\mathbf{u}^{T}\gamma}_k)(\mathbf{u}^{T})^T=(\boldsymbol{\mathbf{u}^{T}\gamma}_k)\mathbf{u}$
同理有 $\mathbf{vv}^{T}\boldsymbol{\gamma}_k=(\boldsymbol{\mathbf{v}^{T}\gamma}_k)\mathbf{v}$
解出 $\alpha=\frac1{\mathbf{u}^T\boldsymbol{\gamma}_k},\beta=-\frac1{\mathbf{v}^T\boldsymbol{\gamma}_k}$ ，且有 $\mathbf{u}-\mathbf{v}=\boldsymbol{\delta}_k-\mathbf{S}_k\boldsymbol{\gamma}_k$ ，
不妨令： $\mathbf{u}=\boldsymbol{\delta}_k$ ， $\mathbf{v}=\mathbf{S}_k\boldsymbol{\gamma}_k$ ，于是 $\alpha=\frac1{\boldsymbol{\delta}_k^T\boldsymbol{\gamma}_k}$ ， $\beta=-\frac1{\boldsymbol{\gamma}_k^T\mathbf{S}_k^T\boldsymbol{\gamma}_k}=-\frac1{\boldsymbol{\gamma}_k^T\mathbf{S}_k\boldsymbol{\gamma}_k}$
将 $\mathbf{u},\mathbf{v},\alpha,\beta$ 带回得到 $\mathbf{S}_{k+1}=\mathbf{S}_k+\frac{\delta_k\delta_k^T}{\delta_k^T\gamma_k}-\frac{\mathbf{S}_k\gamma_k\gamma_k^T\mathbf{S}_k}{\gamma_k^T\mathbf{S}_k\gamma_k}$
Davidion-Feltcher-Powell(DFP) 更新公式
$\mathbf{S}_{k+1}=\mathbf{S}_k+\frac{\delta_k\delta_k^T}{\delta_k^T\gamma_k}-\frac{\mathbf{S}_k\gamma_k\gamma_k^T\mathbf{S}_k}{\gamma_k^T\mathbf{S}_k\gamma_k}$

BFGS

Broyden-Fletcher-Goldfarb-Shanno (BFGS): $S_0=\mathbf{I}$
$\mathbf{S}_{k+1}=\mathbf{S}_k+\left(1+\frac{\gamma_k^T\mathbf{S}_k\gamma_k}{\delta_k^T\gamma_k}\right)\frac{\delta_k\delta_k^T}{\delta_k^T\gamma_k}-\frac{\delta_k\gamma_k^T\mathbf{S}_k+\mathbf{S}_k\gamma_k\delta_k^T}{\delta_k^T\gamma_k}$

步长求取

方式1：每次迭代固定步⻓，实际中最常⽤，例如 $\alpha_k=\alpha=0.1$
方式2：求导：例如 $f(\mathbf{x})=\mathbf{x}^T\mathbf{A}\mathbf{x}+2\mathbf{b}^T\mathbf{x}+c$ ，需要解 $\min_{\alpha\geq0}f(\mathbf{x}+\alpha\mathbf{d})$ 则 $h\left(\alpha\right)=f(\mathbf{x}+\alpha\mathbf{d})$ ，则有 $\frac{\partial h(\alpha)}{\partial\alpha}=0\Rightarrow\alpha=-\frac{\mathbf{d}^{T}\nabla f(\mathbf{x})}{2\mathbf{d}^{T}\mathbf{Ad}}$
方式3：不精确的线搜索和 Armijo 条件
$f(\mathbf{x}_k+\alpha\mathbf{d}_k)<f(\mathbf{x}_k)+c_1\alpha\mathbf{g}^T(\mathbf{x}_k) \mathbf{d}_k$
设置 $c_1=10^{-4}$ ，具体参考 NumericalOptimization。先从 $\alpha=1$ 搜，如果 Armijo 条件不满⾜，设置回调因⼦ $\beta\in(0,1)$ ，将步⻓下调⾄ $\alpha=\beta\alpha$ 。如果还不满足，继续回调(backtracking line search)，从而保证步长不至于太小。

线性回归求解

解法 1：利⽤梯度等于 0

试图学习： $f(\mathbf{x})=\mathbf{w}^T\mathbf{x}+b$ 使得 $f\big(\mathbf{x}^{(i)}\big)\approx y^{(i)}$
未知 $\overline{\mathbf{w}}=\left[\begin{array}{c}\mathbf{w}\\b\end{array}\right]$ ，已知 $\mathbf{X}=\left[\begin{array}{cc}\mathbf{x}^{(1)T}&1\\\vdots&\vdots\\\mathbf{x}^{(N)T}&1\end{array}\right]_{N\times(d+1)}$ ，则有
$\mathrm{y}\approx\mathrm{X}\overline{\mathrm{w}}$
损失函数 $||\mathbf{y}-\mathbf{X}\overline{\mathbf{w}}||_2^2$ ，求解
$\min||\mathbf{y}-\mathbf{X}\overline{\mathbf{w}}||_2^2$
$g\left(\overline{\mathbf{w}}\right)=0\Rightarrow2\mathbf{X}^T\left(\mathbf{X}\overline{\mathbf{w}}-\mathbf{y}\right)=0\Rightarrow\overline{\mathbf{w}}^*=\left(\mathbf{X}^T\mathbf{X}\right)^{-1}\mathbf{X}^T\mathbf{y}$
正则化

解法2：梯度下降

梯度下降法
$\begin{aligned} \mathbf{g}\left(\overline{\mathbf{w}}\right)& =2\mathbf{X}^{T}(\mathbf{X}\overline{\mathbf{w}}-\mathbf{y}) \\ &=2\sum_{i=1}^N\mathbf{x}^{(i)}\left(\mathbf{w}^T\mathbf{x}^{(i)}-y^{(i)}\right) \\ &\overline{\mathrm{w}}\leftarrow\overline{\mathrm{w}}-\alpha\mathbf{g}\left(\overline{\mathrm{w}}\right) \end{aligned}$
随机梯度下降法（实际中很有用）
$\left\{i=1:N, 2\mathbf{x}^{(i)}\left(\mathbf{w}^T\mathbf{x}^{(i)}-y^{(i)}\right)\right\}$