漫步最优化四十五——矩阵S的生成

最新推荐文章于 2023-03-08 17:28:32 发布

会敲键盘的猩猩

最新推荐文章于 2023-03-08 17:28:32 发布

阅读量2k

点赞数 1

分类专栏：漫步最优化文章标签：拟牛顿法正定矩阵

漫步最优化专栏收录该内容

44 篇文章 50 订阅

订阅专栏

想赖着你每一天， $\textbf{想赖着你每一天，}$

耽误多一秒都不愿意。 $\textbf{耽误多一秒都不愿意。}$

想把你捧在手心， $\textbf{想把你捧在手心，}$

给你我最奢侈的温柔。 $\textbf{给你我最奢侈的温柔。}$

感恩节快乐， $\textbf{感恩节快乐，}$

感谢有你。 $\textbf{感谢有你。}$

——畅宝宝的傻逼哥哥 $\textbf{——畅宝宝的傻逼哥哥}$

令

f(x)∈C2 $f(\mathbf{x})\in C^2$ 是

En $E^n$ 中的函数并假设

f(x) $f(\mathbf{x})$ 在点

xk,xk+1 $\mathbf{x}_k,\mathbf{x}_{k+1}$ 处的梯度分别为

gk,gk+1 $\mathbf{g}_k,\mathbf{g}_{k+1}$ ，如果

x k + 1 = x k + δ k

$\begin{equation} \mathbf{x}_{k+1}=\mathbf{x}_k+\mathbf{\delta_k} \end{equation}$

那么根据泰勒级数可以得出 $\mathbf{g}_{k+1}$ 的元素为

g (k + 1) m = g k m + \sum i = 1 n \partial g k m \partial x k i δ k i + 1 2 \sum i = 1 n \sum j = 1 n \partial 2 g k m \partial x k i \partial x k j δ k i δ k j + \dots

$g_{(k+1)m}=g_{km}+\sum_{i=1}^n\frac{\partial g_{km}}{\partial x_{ki}}\delta_{ki}+\frac{1}{2}\sum_{i=1}^n\sum_{j=1}^n\frac{\partial^2g_{km}}{\partial x_{ki}\partial x_{kj}}\delta_{ki}\delta_{kj}+\cdots$

其中 $m=1,2,\ldots,n$ 。接下来如果 $f(\mathbf{x})$ 是二次的，那么 $f(\mathbf{x})$ 的二阶导为常数， $\mathbf{g}_{km}$ 的二阶导为令，所以

g (k + 1) m = g k m + \sum i = 1 n \partial g k m \partial x k i δ k i

$g_{(k+1)m}=g_{km}+\sum_{i=1}^n\frac{\partial g_{km}}{\partial x_{ki}}\delta_{ki}$

又因为

g k m = \partial f k \partial x k m

$g_{km}=\frac{\partial f_k}{\partial x_{km}}$

因此我们有

g (k + 1) m = g k m + \sum i = 1 n \partial 2 f k \partial x k i \partial x k m δ k i

$g_{(k+1)m}=g_{km}+\sum_{i=1}^n\frac{\partial^2f_k}{\partial x_{ki}\partial x_{km}}\delta_{ki}$

其中 $m=1,2,\ldots,n$ ，也就是

g k + 1 = g k + H δ k

$\mathbf{g}_{k+1}=\mathbf{g}_k+\mathbf{H}\mathbf{\delta}_k$

其中 $\mathbf{H}$ 是 $f(\mathbf{x})$ 的海森矩阵。或者我们可以写成

γ k = H δ k

$\begin{equation} \mathbf{\gamma}_k=\mathbf{H}\mathbf{\delta}_k \end{equation}$

其中

δ k = x k + 1 - x k γ k = g k + 1 - g k

$\begin{align} \mathbf{\delta}_k=\mathbf{x}_{k+1}-\mathbf{x}_k\\ \mathbf{\gamma}_k=\mathbf{g}_{k+1}-\mathbf{g}_k \end{align}$

上面的分析表明，如果 $f(\mathbf{x})$ 在点 $\mathbf{x}_k,\mathbf{x}_{k+1}$ 处的梯度已知，那么可以得到上面的关系，这给出了矩阵 $\mathbf{H}$ 的部分信息。因为 $\mathbf{H}$ 中有 $n^2$ 个未知量(或者如果 $\mathbf{H}$ 是实对称矩阵，那么存在 $n(n+1)/2$ 个未知量)，而等式2只提供了 $n$ 个等式，不能唯一的确定 $\mathbf{H}$ ，然而，如果对连续 $n+1$ 个点的梯度进行估计，也就是点 $\mathbf{x}_0,\mathbf{x}_1,\ldots,\mathbf{x}_n$ ，使得 $\mathbf{x}$ 的变化量组成一个线性无关向量的集合，那么我们就有充分的信息来唯一的确定 $\mathbf{H}$ ，其中 $\mathbf{x}$ 的变化量就是

δ 0 = x 1 - x 0 δ 1 = x 2 - x 1 ⋮ δ n - 1 = x n - x n - 1

$\begin{align*} \mathbf{\delta}_0=\mathbf{x}_1-\mathbf{x}_0\\ \mathbf{\delta}_1=\mathbf{x}_2-\mathbf{x}_1\\ \vdots\\ \mathbf{\delta}_{n-1}=\mathbf{x}_n-\mathbf{x}_{n-1} \end{align*}$

为了证明这个事实，我们将等式2给出的 $n$ 个等式重新写成

[γ 0 γ 1 \dots γ n - 1] = H [δ 0 δ 1 \dots δ n - 1]

$\begin{equation} [\mathbf{\gamma}_0\ \mathbf{\gamma}_1\ \cdots\ \mathbf{\gamma}_{n-1}]=\mathbf{H}[\mathbf{\delta}_0\ \mathbf{\delta}_1\ \cdots\ \mathbf{\delta}_{n-1}] \end{equation}$

因此

H = [γ 0 γ 1 \dots γ n - 1] [δ 0 δ 1 \dots δ n - 1] - 1

$\mathbf{H}=[\mathbf{\gamma}_0\ \mathbf{\gamma}_1\ \cdots\ \mathbf{\gamma}_{n-1}][\mathbf{\delta}_0\ \mathbf{\delta}_1\ \cdots\ \mathbf{\delta}_{n-1}]^{-1}$

如果 $\mathbf{\delta}_0,\mathbf{\delta}_1,\ldots,\mathbf{\delta}_{n-1}$ 构成一个线性无关向量集，那么解就存在。

利用上面的原则可以构造下面的算法：

算 法 1 ： 替 代 的 牛 顿 法 步 骤 1 输 入 x 00 并 初 始 化 容 忍 误 差 ε 令 k = 0 输 入 一 个 线 性 关 系 向 量 集 合 δ 0, δ 1, \dots, δ n - 1 步 骤 2 计 算 g 00 步 骤 3 对 于 i = 0 到 n - 1 令 x k (i + 1) = x k i + δ i 计 算 g k (i + 1) 令 γ k i = g k (i + 1) - g k i 步 骤 4 计 算 H k = [γ k 0 γ k 1 \dots γ k (n - 1)] [δ 0 δ 1 \dots δ n - 1] - 1 计 算 S k = H - 1 k 步 骤 5 令 d k = - S k g k 0 找 出 α, 也 即 是 最 小 化 f (x k 0 + α d k) 的 α 值 令 x (k + 1) 0 = x k 0 + α k d k 步 骤 6 如 果 ∥ α k d k ∥ < ε, 输 出 x * k = x (k + 1) 0 并 且 f (x *) = f (x (k + 1) 0) 算 法 结 束 步 骤 7 令 k = k + 1 然 后 回 到 步 骤 3

$\begin{align*} &\textbf{算法1：替代的牛顿法}\\ &\textbf{步骤1}\\ &\text{输入}\mathbf{x}_{00}\text{并初始化容忍误差}\varepsilon\\ &\text{令}k=0\\ &\text{输入一个线性关系向量集合}\mathbf{\delta}_0,\mathbf{\delta}_1,\ldots,\mathbf{\delta}_{n-1}\\ &\textbf{步骤2}\\ &\text{计算}\mathbf{g}_{00}\\ &\textbf{步骤3}\\ &\text{对于}i=0\text{到}n-1\\ &\quad\text{令}\mathbf{x}_{k(i+1)}=\mathbf{x}_{ki}+\mathbf{\delta}_i\\ &\quad\text{计算}\mathbf{g}_{k(i+1)}\\ &\quad\text{令}\mathbf{\gamma}_{ki}=\mathbf{g}_{k(i+1)}-\mathbf{g}_{ki}\\ &\textbf{步骤4}\\ &\text{计算}\mathbf{H}_k=[\mathbf{\gamma}_{k0}\ \mathbf{\gamma}_{k1}\ \cdots\ \mathbf{\gamma}_{k(n-1)}][\mathbf{\delta}_0\ \mathbf{\delta}_1\ \cdots\ \mathbf{\delta}_{n-1}]^{-1}\\ &\text{计算}\mathbf{S}_k=\mathbf{H}_k^{-1}\\ &\textbf{步骤5}\\ &\text{令}\mathbf{d}_k=-\mathbf{S}_k\mathbf{g}_{k0}\\ &\text{找出}\alpha,\text{也即是最小化}f(\mathbf{x}_{k0}+\alpha\mathbf{d}_k)\text{的}\alpha\text{值}\\ &\text{令}\mathbf{x}_{(k+1)0}=\mathbf{x}_{k0}+\alpha_k\mathbf{d}_k\\ &\textbf{步骤6}\\ &\text{如果}\lVert\alpha_k\mathbf{d}_k\rVert<\varepsilon,\text{输出}\mathbf{x}_k^*=\mathbf{x}_{(k+1)0}\text{并且}f(\mathbf{x}^*)=f(\mathbf{x}_{(k+1)0})\text{算法结束}\\ &\textbf{步骤7}\\ &\text{令}k=k+1\text{然后回到步骤3} \end{align*}$

上面的算法基本上是牛顿法的实现，唯一的不同是利用数据来得到 $\mathbf{H}^{-1}$ 。对于凸二次问题，上面的算法一次迭代就得的问题的解，因此非常有效，然而对于非二次问题，同基于牛顿法的其他一样，它也存在相同的缺点。首先需要矩阵的逆，其次必须检查 $\mathbf{H}_k$ 的正定性。

下面介绍一种消除矩阵逆的策略。假设已知正定实对称矩阵 $\mathbf{S}_k$ ， $\mathbf{H}^{-1}$ 的近似值，然后计算拟牛顿方向为

d k = - S k g k

$\begin{equation} \mathbf{d}_k=-\mathbf{S}_k\mathbf{g}_k \end{equation}$

然后求 $\alpha$ ，也就是最小化 $f(\mathbf{x}_k+\alpha\mathbf{d}_k)$ 的 $\alpha$ 值。对于凸二次问题，

α k = g T k S k g k ( S k g k ) T H ( S k g k )

$\begin{equation} \alpha_k=\frac{\mathbf{g}_k^T\mathbf{S}_k\mathbf{g}_k}{(\mathbf{S}_k\mathbf{g}_k)^T\mathbf{H}(\mathbf{S}_k\mathbf{g}_k)} \end{equation}$

其中 $\mathbf{S}_k,\mathbf{H}$ 是正定的。显然，当 $\mathbf{x}_k$ 不是问题的解 $\mathbf{x}^*$ 时， $\alpha_k$ 大于零，然后确定 $\mathbf{x}$ 的变化量为

δ k = α k d k

$\begin{equation} \mathbf{\delta}_k=\alpha_k\mathbf{d}_k \end{equation}$

根据等式1得到新点 $\mathbf{x}_{k+1}$ 。通过计算 $\mathbf{x}_k,\mathbf{x}_{k+1}$ 处的梯度，利用等式4得到梯度的变化量 $\mathbf{\gamma}_k$ ，接下里对 $\mathbf{S}_k$ 进行修正得到

S k + 1 = S k + C k

$\begin{equation} \mathbf{S}_{k+1}=\mathbf{S}_k+\mathbf{C}_k \end{equation}$

其中 $\mathbf{C}_k$ 是 $n\times n$ 修正矩阵，从数据计算得出的。从初始点 $\mathbf{x}_0$ ,初始正定矩阵 $\mathbf{S}_0,\mathbf{S}_0=\mathbf{I}_n$ 开始，迭代使用上面的过程，得到序列 $\mathbf{\delta}_0,\mathbf{\delta}_1,\ldots,\mathbf{\delta}_k,\mathbf{\gamma}_0,\mathbf{\gamma}_1,\ldots,\mathbf{\gamma}_k,\mathbf{S}_1,\mathbf{S}_2,\ldots,\mathbf{S}_{k+1}$ 。如果

S k + 1 γ i = δ i for 0 \leq i \leq k

$\begin{equation} \mathbf{S}_{k+1}\mathbf{\gamma}_i=\mathbf{\delta}_i\quad\text{for}\ 0\leq i\leq k \end{equation}$

然后对于 $k=n-1$ ，我们可以写作

S n [γ 0 γ 1 \dots γ n - 1] = [δ 0 δ 1 \dots δ n - 1]

$\mathbf{S}_n[\mathbf{\gamma}_0\ \mathbf{\gamma}_1\ \cdots\ \mathbf{\gamma}_{n-1}]=[\mathbf{\delta}_0\ \mathbf{\delta}_1\ \cdots\ \mathbf{\delta}_{n-1}]$

或者

S n = [δ 0 δ 1 \dots δ n - 1] [γ 0 γ 1 \dots γ n - 1] - 1

$\begin{equation} \mathbf{S}_n=[\mathbf{\delta}_0\ \mathbf{\delta}_1\ \cdots\ \mathbf{\delta}_{n-1}][\mathbf{\gamma}_0\ \mathbf{\gamma}_1\ \cdots\ \mathbf{\gamma}_{n-1}]^{-1} \end{equation}$

根据等式5与11可得

S n = H - 1

$\mathbf{S}_n=\mathbf{H}^{-1}$

接下来如果 $k=n$ ，等式6到8得到

d n = - H - 1 g n α n = 1 δ n = - H - 1 g n

$\begin{align*} \mathbf{d}_n=-\mathbf{H}^{-1}\mathbf{g}_n\\ \alpha_n=1\\ \mathbf{\delta}_n=-\mathbf{H}^{-1}\mathbf{g}_n \end{align*}$

所以根据等式1可得

x n + 1 = x n - H - 1 g n = x *

$\mathbf{x}_{n+1}=\mathbf{x}_n-\mathbf{H}^{-1}\mathbf{g}_n=\mathbf{x}^*$

上面的过程产生了一族拟牛顿算法，他们有一个基本属性：对于凸二次问题， $n+1$ 次迭代内中止，根据修正矩阵 $\mathbf{C}_n$ 的差异从而得出各种各样的算法。

对于任何 $\mathbf{C}_n$ , $\mathbf{S}_{k+1}$ 必须满足等式10，并且下面的属性也是我们想要的：

向量 $\mathbf{\delta}_0,\mathbf{\delta}_1,\ldots,\mathbf{\delta}_{n-1}$ 构成一个共轭方向集
正定矩阵 $\mathbf{S}_k$ 产生正定矩阵 $\mathbf{S}_{k+1}$

第一个属性确保共轭方向的性质能够应用到拟牛顿法上，第二个属性确保每次迭代中 $\mathbf{d}_k$ 是下降方向。为了证明这个事实，考虑点 $\mathbf{x}_k+\mathbf{\delta}_k$ 并令

δ k = α d k

$\mathbf{\delta}_k=\alpha\mathbf{d}_k$

其中

d k = - S k g k

$\mathbf{d}_k=-\mathbf{S}_k\mathbf{g}_k$

对于 $\alpha>0$ ，泰勒级数给出

f (x k + δ k) = f (x k) + g T k δ k + 1 2 δ T k H (x k + c δ k) δ k

$f(\mathbf{x}_k+\mathbf{\delta}_k)=f(\mathbf{x}_k)+\mathbf{g}_k^T\mathbf{\delta}_k+\frac{1}{2}\mathbf{\delta}_k^T\mathbf{H}(\mathbf{x}_k+c\mathbf{\delta}_k)\mathbf{\delta}_k$

其中 $c$ 是常数， $0\leq c\leq 1$ 。消除 $\mathbf{\delta}_k$ ，我们得到

f (x k + δ k) = f (x k) - α g T k S k g k + o (α ∥ d k ∥) = f (x k) - [α g T k S k g k - o (α ∥ d k ∥)]

$\begin{align*} f(\mathbf{x}_k+\mathbf{\delta}_k)&=f(\mathbf{x}_k)-\alpha\mathbf{g}_k^T\mathbf{S}_k\mathbf{g}_k+o(\alpha\lVert\mathbf{d}_k\rVert)\\ &=f(\mathbf{x}_k)-[\alpha\mathbf{g}_k^T\mathbf{S}_k\mathbf{g}_k-o(\alpha\lVert\mathbf{d}_k\rVert)] \end{align*}$

其中 $o(\alpha\lVert\mathbf{d}_k\rVert)$ 是余项，比 $\alpha\lVert\mathbf{d}_k\rVert$ 更快接近零。接下来如果 $\mathbf{S}_k$ 是正定的，那么对于充分小的 $\alpha>0$ ，我们有

α g k S k g k - o (α ∥ d k ∥) > 0

$\alpha\mathbf{g}_k\mathbf{S}_k\mathbf{g}_k-o(\alpha\lVert\mathbf{d}_k\rVert)>0$

因为 $\alpha>0,\mathbf{g}_k^T\mathbf{S}_k\mathbf{g}_k>0,o(\alpha\lVert\mathbf{d}_k\rVert)\to 0$ ，因此

f (x k + δ k) < f (x k)

$\begin{equation} f(\mathbf{x}_k+\mathbf{\delta}_k)<f(\mathbf{x}_k) \end{equation}$

也就是说如果 $\mathbf{S}_k$ 是正定的，那么 $\mathbf{d}_k$ 是下降方向。

从这点来说，属性2的重要性就很明显了。正定矩阵 $\mathbf{S}_0$ 将产生正定矩阵 $\mathbf{S}_1$ ，然后产生正定矩阵 $\mathbf{S}_2$ ，如此不断进行，最后方向 $\mathbf{d}_0,\mathbf{d}_1,\mathbf{d}_2,\ldots$ 将都是下降方向，这就确保算法能够收敛。

会敲键盘的猩猩

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
4
评论
漫步最优化四十五——矩阵S的生成

想赖着你每一天，\textbf{想赖着你每一天，} 耽误多一秒都不愿意。\textbf{耽误多一秒都不愿意。} 想把你捧在手心，\textbf{想把你捧在手心，} 给你我最奢侈的温柔。\textbf{给你我最奢侈的温柔。} 感恩节快乐，\textbf{感恩节快乐，} 感谢有你。\textbf{感谢有你。} ——畅宝宝的傻逼哥哥\textbf{——畅宝宝的傻逼哥哥} 令f(x)∈C2
复制链接

扫一扫

专栏目录