[优化算法]梯度下降法-强凸函数的收敛性分析

取个名字真难呐

已于 2024-07-09 08:18:05 修改

阅读量515

点赞数 19

文章标签：算法机器学习人工智能

于 2024-07-08 14:56:59 首次发布

本文链接：https://blog.csdn.net/scar2016/article/details/140268723

版权

文章目录

1. [优化算法] 梯度下降法-强凸函数的收敛性分析（上）
- 1.1 概述
- 1.2 证明
2. [优化算法] 梯度下降法-强凸函数的收敛性分析（下）
- 2.1 概述
- 2.2 证明

参考学习视频如下：
B站大佬

1. [优化算法] 梯度下降法-强凸函数的收敛性分析（上）

1.1 概述

$f$ 有下界，m-强凸，可微
$\nabla f$ 是 $L - L i p sc hi t z$ 连续
$\alpha \in (0,\frac{2}{L+m})$

则 $\{x_k \}\xrightarrow[]{Q-线性收敛}x^*$

1.2 证明

如果我们要证明 ${x_k \}$ 线性收敛，那么就需要证明：
$\begin{equation} \frac{||x_{k+1}-x^*||}{||x_{k}-x^*||}=c,c \in(0,1) \end{equation}$

我们定义梯度下降法表示如下： $\alpha_k$ 表示步长， $p_k$ 表示方向
$\begin{equation} x_{k+1}=x_k-\alpha\nabla f(x_k) \end{equation}$

那么可得：
$\begin{equation} ||x_{k+1}-x^*||^2=||x_k-\alpha_k\nabla f(x_k)-x^*||^2=||x_k-x^*||^2-2\alpha_k\nabla f^T(x_k)(x_k-x^*)+\alpha_k^2||\nabla f(x_k)||^2 \end{equation}$
我们知道在 $x^*$ 上的梯度为0，则 $\nabla f^T(x^*)=0$ ，整理上述公式可得：
$\begin{equation} ||x_{k+1}-x^*||^2=||x_k-x^*||^2-2\alpha_k[\nabla f^T(x_k)-\nabla f^T(x^*)](x_k-x^*)+\alpha_k^2||\nabla f(x_k)||^2 \end{equation}$
定义 $g (x)$ 函数如下：
$\begin{equation} g(x)\triangleq f(x)-\frac{1}{2}mx^Tx;\nabla g(x)=\nabla f(x)-mx \end{equation}$
因为 f是m-强凸函数，所以可得 g(x)也是凸的,因为f是可微的，所以g也是可微的。
$\begin{equation} h(x)\triangleq \frac{1}{2}Lx^Tx-f(x)\rightarrow h(x)为凸函数 \end{equation}$
整理可得：
$\begin{equation} h(x)=\frac{1}{2}Lx^Tx-\frac{1}{2}mx^Tx-g(x)=\frac{1}{2}(L-m)x^Tx-g(x) \end{equation}$
$\begin{equation} h(x)=\frac{1}{2}(L-m)x^Tx-g(x) \end{equation}$
由于 $g(x),\frac{1}{2}(L-m)x^Tx-g(x)$ 为凸函数，
由白老爹定理 白老爹定理条件2 --> 条件3，可得： $\nabla g(x)满足余强制性$
$\begin{equation} (\nabla g(x)-\nabla g(y))^T(x-y)\ge \frac{1}{L-m}||\nabla g(x)-\nabla g(y)||^2 \end{equation}$
将 $\nabla g(x)=\nabla f(x)-mx$ 代入可得：
$\begin{equation} [\nabla f(x)-\nabla f(y)-m(x-y)]^T(x-y)\ge \frac{1}{L-m}[\nabla f(x)-\nabla f(y)-m(x-y)]^2 \end{equation}$
分解可得：
$\begin{equation} [\nabla f(x)-\nabla f(y)]^T(x-y)-m(x-y)^T(x-y)\ge \frac{1}{L-m}[\nabla f(x)-\nabla f(y)-m(x-y)]^2 \end{equation}$
$\begin{equation} [\nabla f(x)-\nabla f(y)]^T(x-y)-m||x-y||^2\ge \frac{1}{L-m}[\nabla f(x)-\nabla f(y)-m(x-y)]^2 \end{equation}$
将右边展开可得：
$\begin{equation} Q(x)= \frac{1}{L-m}[\nabla f(x)-\nabla f(y)]^2+\frac{1}{L-m}m^2(x-y)^2- \frac{2}{L-m}[\nabla f(x)-\nabla f(y)]^Tm(x-y) \end{equation}$
整理可得：
$\begin{equation} [\nabla f(x)-\nabla f(y)]^T(x-y)-m||x-y||^2\ge Q(x) \end{equation}$
整理后可得：
$\begin{equation} (1+\frac{2m}{L-m})[\nabla f(x)-\nabla f(y)]^T(x-y)-m||x-y||^2\ge \frac{[\nabla f(x)-\nabla f(y)]^2+m^2||x-y||^2}{L-m} \end{equation}$
进一步整理可得：
$\begin{equation} (1+\frac{2m}{L-m})[\nabla f(x)-\nabla f(y)]^T(x-y)\ge \frac{[\nabla f(x)-\nabla f(y)]^2}{L-m}+(m+\frac{m^2}{L-m})||x-y||^2 \end{equation}$
整理系数可得：
$\begin{equation} [\nabla f(x)-\nabla f(y)]^T(x-y)\ge \frac{[\nabla f(x)-\nabla f(y)]^2}{L+m}+\frac{Lm}{L+m}||x-y||^2 \end{equation}$
令 $x=x_k,y=x^*$ 代入上式可得：
$\begin{equation} [\nabla f(x_k)-\nabla f(x^*)]^T(x_k-x^*)\ge \frac{[\nabla f(x_k)-\nabla f(x^*)]^2}{L+m}+\frac{Lm}{L+m}||x_k-x^*||^2 \end{equation}$
我们定义过如下公式：
$\begin{equation} ||x_{k+1}-x^*||^2=||x_k-x^*||^2-2\alpha_k[\nabla f^T(x_k)-\nabla f^T(x^*)]^T(x_k-x^*)+\alpha_k^2||\nabla f(x_k)||^2 \end{equation}$
整理后可得：
$\begin{equation} [\nabla f(x_k)-\nabla f(x^*)]^T(x_k-x^*)=\frac{1}{2\alpha_k}[||x_k-x^*||^2+\alpha_k^2||\nabla f(x_k)||^2-||x_{k+1}-x^*||^2] \end{equation}$
代入到不等式可得：
$\begin{equation} \frac{1}{2\alpha_k}[||x_k-x^*||^2+\alpha_k^2||\nabla f(x_k)||^2-||x_{k+1}-x^*||^2]\ge \frac{[\nabla f(x_k)-\nabla f(x^*)]^2}{L+m}+\frac{Lm}{L+m}||x_k-x^*||^2 \end{equation}$
因为： $\alpha \in (0,\frac{2}{L+m})$
$\begin{equation} \frac{\alpha_k}{2}||\nabla f(x_k)||^2- \frac{[\nabla f(x_k)]^2}{L+m}\le 0 \end{equation}$
所以缩放可得：
$\begin{equation} ||x_{k+1}-x^*||^2\le(1-\frac{2\alpha Lm}{L+m})||x_k-x^*||^2 \end{equation}$
显然 $(1-\frac{2\alpha Lm}{L+m})<1$
因为： $\alpha \in (0,\frac{2}{L+m})$
$\begin{equation} 1-\frac{2\alpha Lm}{L+m}>1-\frac{4Lm}{(L+m)^2}=\frac{(L-m)^2}{(L+m)^2}>0 \end{equation}$
所以可得, $L\ne m$ 时：
$\begin{equation} ||x_{k+1}-x^*||^2\le c||x_k-x^*||^2；c=(1-\frac{2\alpha Lm}{L+m}), 0<c<1 \end{equation}$
$\begin{equation} ||x_{k+1}-x^*||\le \sqrt{c}||x_k-x^*||；c=(1-\frac{2\alpha Lm}{L+m}), 0<\sqrt{c}<1 \end{equation}$
$\begin{equation} \frac{||x_{k+1}-x^*||}{||x_k-x^*||}\le (1-\frac{2\alpha Lm}{L+m})^{\frac{1}{2}}；c=(1-\frac{2\alpha Lm}{L+m}), 0<\sqrt{c}<1 \end{equation}$
则 $\{x_k \}\xrightarrow[]{Q-线性收敛}x^*$
$!!! 完结撒花!!!$

2. [优化算法] 梯度下降法-强凸函数的收敛性分析（下）

2.1 概述

$f$ 有下界，m-强凸，二阶可微
$\nabla f$ 是L-Lipschitz连续
$\alpha \in(0,\frac{2}{L+m})$
可得：
则 $\{x_k \}\xrightarrow[]{Q-线性收敛}x^*$
$\begin{equation} \frac{||x_{k+1}-x^*||}{||x_k-x^*||}\le (1-\frac{2\alpha Lm}{L+m})^{\frac{1}{2}} \end{equation}$

2.2 证明

由 f 是m-强凸可得,二阶可微：
$\begin{equation} \nabla^2 f\succeq mI \rightarrow \nabla^2 f- mI 为半正定矩阵 \end{equation}$
由 $\nabla f$ 是L-Lipschitz连续,二阶可微可得：
$\begin{equation} \nabla^2 f\preceq LI,即 [LI-\nabla^2 f]为半正定矩阵 \end{equation}$
综上所述可得：
$\begin{equation} mI\preceq \nabla^2 f\preceq LI \end{equation}$
因为 $\nabla^2f$ 是对称正定的矩阵，可以进行正交分解可得
$\begin{equation} \nabla^2 f=Q\Lambda Q^T,\Lambda=\begin{bmatrix}\lambda_1\\\\&\lambda_2\\\\&&\ddots\\\\&&&\lambda_n\end{bmatrix},\lambda_1\ge\lambda_2\ge\cdots\ge\lambda_n \end{equation}$
化简如下公式可得：
$\begin{equation} \nabla^2 f- mI =Q\Lambda Q^{-1}-QmIQ^{-1}=Q \begin{bmatrix}\lambda_1-m\\\\&\lambda_2-m\\\\&&\ddots\\\\&&&\lambda_n-m\end{bmatrix}Q^{-1}\ge0 \end{equation}$
所以可得：
$\begin{equation} \lambda_i-m\ge0,\forall i=1,2,\cdots,n\rightarrow \lambda_{min}=\lambda_n\ge m \end{equation}$
根据如下条件
$\begin{equation} mI\preceq \nabla^2 f\preceq LI \end{equation}$
可得：
$\begin{equation} \lambda_{max}=\lambda_n\le L \end{equation}$
综上所述:
$\begin{equation} 0<m\le\lambda_{min}\le \lambda_{max}\le L \end{equation}$
不妨令 $L=\lambda_{max},m=\lambda_{min},\alpha=\frac{1}{L}$ ,代入公式可得：
$\begin{equation} \frac{||x_{k+1}-x^*||}{||x_k-x^*||}\le (\frac{\lambda_{max}-\lambda_{min}}{\lambda_{max}+\lambda_{min}})^{\frac{1}{2}}=(\frac{\lambda_{max}/\lambda_{min}-1}{\lambda_{max}/\lambda_{min}+1})^{\frac{1}{2}} \end{equation}$
我们定义 $\nabla^2f$ 的条件数表示如下：
$\begin{equation} \mathbb{K}(\nabla^2f)=\frac{\lambda_{max}}{\lambda_{min}} \end{equation}$
那么综上所述可得：
$\begin{equation} \frac{||x_{k+1}-x^*||}{||x_k-x^*||}\le (\frac{\mathbb{K}(\nabla^2f)-1}{\mathbb{K}(\nabla^2f)+1})^{\frac{1}{2}} \end{equation}$
当 $\mathbb{K}(\nabla^2f)\to \infty$ 时，称作病态问题
$\begin{equation} \lim_{\mathbb{K}(\nabla^2f)\to \infty}(\frac{\mathbb{K}(\nabla^2f)-1}{\mathbb{K}(\nabla^2f)+1})^{\frac{1}{2}}=1 \end{equation}$

取个名字真难呐

关注

19
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
[优化算法]梯度下降法-强凸函数的收敛性分析

fff有下界，m-强凸，可微∇f\nabla f∇f是L−LipschitzL−Lipschitz连续α∈02Lmα∈0Lm2则xk→Q−线性收敛x∗\{x_k \}\xrightarrow[]{Q-线性收敛}x^*xkQ−线性收敛x∗。
复制链接

扫一扫