[优化算法]梯度下降法-白老爹定理

取个名字真难呐

已于 2024-07-08 20:32:39 修改

阅读量511

点赞数 14

文章标签：算法

于 2024-07-08 05:47:16 首次发布

本文链接：https://blog.csdn.net/scar2016/article/details/140257089

版权

文章目录

1. 概述
2. 利普希茨连续的定义
3. 等价条件证明

参考视频如下：
B站大佬视频，我只是学习记录的菜鸡

1. 概述

Baillon Haddad Theorem白老爹定理
若 $f$ 凸函数可微，则有下列等价条件

$\nabla f ,L-Lipschitz$ 连续
$g(x)=\frac{L}{2}x^Tx-f(x)$ 是凸的：用一个二次函数 $\frac{L}{2}x^Tx-$ 减去一个凸函数f(x)后还是凸
$\nabla f$ 有余强制性，即 $(\nabla f(x)-\nabla f(y))^T(x-y)\ge \frac{1}{L}||\nabla f(x)-\nabla f(y)||^2$

2. 利普希茨连续的定义

L−Lipschitz
利普希茨连续的定义是：如果函数 f 在区间 Q 上以常数 L 利普希茨连续，那么对于 x,y ∈ Q ，有： ∣∣f (x)−f (y)∣∣ ≤ L∣∣x− y∣∣ 其中常数 L 称为 f 在区间 Q 上的 Lipschitz常数。

3. 等价条件证明

3.1 条件1 --> 条件2

已知： $f$ 凸函数可微，且 $\nabla f ,L-Lipschitz$ 连续
证明： $g(x)=\frac{L}{2}x^Tx-f(x)$ 是凸的：

因为 $g(x)=\frac{L}{2}x^Tx-f(x)$ ,求导可得：
$\begin{equation} \nabla g(x)=Lx-\nabla f(x) \end{equation}$
对于 $\forall x,y \in \mathbb{R}^n,$ 如下：
$\begin{equation} [\nabla g(x)-\nabla g(y)]^T(x-y)=[Lx-\nabla f(x)-Ly+\nabla f(y)]^T(x-y) \end{equation}$
整理可得,L为标量：
$\begin{equation} =L(x-y)^T(x-y)-[\nabla f(x)-\nabla f(y)]^T(x-y) \end{equation}$
因为 $a^Tb=|a|\cdot |b| \cdot \cos(\theta)$ ,所以
$\begin{equation} -||\nabla f(x)-\nabla f(y)||\cdot||x-y|| \ge -[\nabla f(x)-\nabla f(y)]^T(x-y) \end{equation}$
代入整理可得：
$\begin{equation} [\nabla g(x)-\nabla g(y)]^T(x-y)\ge L(x-y)^T(x-y)-||\nabla f(x)-\nabla f(y)||\cdot||x-y|| \end{equation}$
由于 $\nabla f ,L-Lipschitz$ 连续，所以可得：
$\begin{equation} ||\nabla f(x)-\nabla f(y)||\le L||x-y|| \end{equation}$
代入可得：
$\begin{equation} [\nabla g(x)-\nabla g(y)]^T(x-y)\ge L||x-y||^2-L||x-y||\cdot||x-y|| \ge 0 \end{equation}$
综上所述：
$\begin{equation} [\nabla g(x)-\nabla g(y)]^T(x-y)\ge 0 \end{equation}$
条件1 推条件2 小结，：
$\begin{equation} g(x)=\frac{L}{2}x^Tx-f(x)是凸的 \end{equation}$

3.2 条件3 --> 条件1

已知： $\nabla f$ 有余强制性，即 $(\nabla f(x)-\nabla f(y))^T(x-y)\ge \frac{1}{L}||\nabla f(x)-\nabla f(y)||^2$
证明： $\nabla f ,L-Lipschitz$ 连续， $||\nabla f(x)-\nabla f(y)||\le L\cdot ||x-y||$

点积公式展开：
$\begin{equation} (\nabla f(x)-\nabla f(y))^T(x-y)=||\nabla f(x)-\nabla f(y)||\cdot ||x-y|| \cdot \cos(\theta)，\cos(\theta)\le1 \end{equation}$
可得不等式如下：
$\begin{equation} ||\nabla f(x)-\nabla f(y)||\cdot ||x-y||\ge (\nabla f(x)-\nabla f(y))^T(x-y) \end{equation}$
代入条件3可得：
$\begin{equation} ||\nabla f(x)-\nabla f(y)||\cdot ||x-y||\ge \frac{1}{L}||\nabla f(x)-\nabla f(y)||^2 \end{equation}$
因为 $||\nabla f(x)-\nabla f(y)||>0$ 可得：
$\begin{equation} ||\nabla f(x)-\nabla f(y)||\le L\cdot ||x-y|| \end{equation}$

3.3 条件2 --> 条件3

3.1.1 证明思路

已知： $g(x)=\frac{L}{2}x^Tx-f(x)$ 是凸的
证明： $\nabla f$ 有余强制性，即 $(\nabla f(x)-\nabla f(y))^T(x-y)\ge \frac{1}{L}||\nabla f(x)-\nabla f(y)||^2$

证明：
我们定义如下：
$\begin{equation} \Delta_1=f(y)-[f(x)+\nabla f^T(x)(y-x)] \end{equation}$
$\begin{equation} \Delta_2=f(x)-[f(y)+\nabla f^T(y)(x-y)] \end{equation}$
$\begin{equation} \Delta_1+\Delta_2=[\nabla f(x)-\nabla f(y)]^T(x-y) \end{equation}$
假设我们能够证明如下：最重要！！！！！
$\begin{equation} \Delta_1\ge \frac{1}{2L}[\nabla f(x)-\nabla f(y)]^2;\Delta_2\ge \frac{1}{2L}[\nabla f(x)-\nabla f(y)]^2 \end{equation}$
将上述式子相加可得条件2的结论：
$\begin{equation} \Delta_1+\Delta_2=[\nabla f(x)-\nabla f(y)]^T(x-y)\ge \frac{1}{L}[\nabla f(x)-\nabla f(y)]^2 \end{equation}$

3.1.2 证明过程：

因为我们定义 $\Delta_1$ 表示如下：
$\begin{equation} \Delta_1=f(y)-[f(x)+\nabla f^T(x)(y-x)] \end{equation}$
化简整理可得：
$\begin{equation} \Delta_1=f(y)-\nabla f^T(x)y-[f(x)-\nabla f^T(x)x] \end{equation}$
我们定义一个新的函数如下：
$\begin{equation} h_x(z)=f(z)-\nabla f^T(x)z\rightarrow \Delta_1=h_x(y)-h_x(x) \end{equation}$
因为 $f (z)$ 为凸函数， $\nabla f^T(x)z$ 为关于z的仿射一次函数，所以可得： $h_x(z)$ 为凸函数
我们对 $h_x(z)$ 求导可得：
$\begin{equation} \nabla h_x(z)=\nabla f(z)-\nabla f(x) \end{equation}$
我们可以看出，当 $z = x$ 时， $\nabla h_x(z)=\nabla f(z)-\nabla f(z)=0$ ,由于 $h_x(z)$ 为凸函数,可得：当z=x时候， $h_x(z)$ 取得最小值0，
$\begin{equation} \argmin\limits_{z=x}h_x(z)=0 \end{equation}$
根据条件2 ： $g(x)=\frac{L}{2}x^Tx-f(x)$ 是凸的
$\begin{equation} g(z)=\frac{L}{2}z^Tz-f(z);f(z)=h_x(z)+\nabla f^T(x)z \end{equation}$
代入可得：
$\begin{equation} g(z)=\frac{L}{2}z^Tz-h_x(z)-\nabla f^T(x)z \end{equation}$
整理可得：
$\begin{equation} g(z)+\nabla f^T(x)z=\frac{L}{2}||z||^2-h_x(z) \end{equation}$
我们定义新的函数如下：
$\begin{equation} g_x(z)=g(z)+\nabla f^T(x)z \end{equation}$
$\begin{equation} g_x(z)=\frac{L}{2}||z||^2-h_x(z) \end{equation}$
因为 g(z)我们条件为凸函数， $\nabla f^T(x)z$ 仿射变换，所以可得 $g_x(z)$ 为凸函数，所以可得其导数：
$\begin{equation} \nabla g(z)=L||z||-\nabla h_x(z) \end{equation}$
$\begin{equation} g_x(z_2)\ge g_x(z_1)+\nabla g^T_x(z_1)(z_2-z_1) \end{equation}$
$\begin{equation} g_x(z_2)=\frac{L}{2}||z_2||^2-h_x(z_2) \end{equation}$
$\begin{equation} g_x(z_1)=\frac{L}{2}||z_1||^2-h_x(z_1) \end{equation}$
$\begin{equation} \nabla g^T_x(z_1)(z_2-z_1)=[Lz_1-\nabla h_x(z_1)](z_2-z_1) \end{equation}$
$\begin{equation} \frac{L}{2}||z_2||^2-h_x(z_2)\ge \frac{L}{2}||z_1||^2-h_x(z_1)+[Lz_1-\nabla h_x(z_1)](z_2-z_1) \end{equation}$
整理上述公式可得：
$\begin{equation} h_x(z_2)\le \frac{L}{2}||z_2||^2-\frac{L}{2}||z_1||^2+h_x(z_1)+[\nabla h_x(z_1)-Lz_1](z_2-z_1) \end{equation}$
我们又要新定义一个关于 $z_2$ 的二次函数如下：[将右边定义为一个函数]
这里将 $z_2$ 当作变量， $z_1$ 当作常数看待，就是一个抛物线函数了，并且我们定义L>0.那么就存在最小值
$\begin{equation} \phi(z_2)= \frac{L}{2}||z_2||^2-\frac{L}{2}||z_1||^2+h_x(z_1)+[\nabla h_x(z_1)-Lz_1](z_2-z_1) \end{equation}$
求 $\phi(z_2)$ 的最小值,求导函数可得：
$\begin{equation} \nabla\phi(z_2)= Lz_2+\nabla h_x(z_1)-Lz_1=0\rightarrow z_{2min}=z_1-\frac{\nabla h_x(z_1)}{L} \end{equation}$
代入方程可得：
$\begin{equation} \phi(z_{2min})=\phi(z_1-\frac{\nabla h_x(z_1)}{L})=h_x(z_1)-\frac{1}{2L}||\nabla h_x(z_1)||^2 \end{equation}$
综上所述，代入不等式中可得：
$\begin{equation} h_x(z_2)\le inf\{ \phi(z_2) \}=\phi(z_{2min})= h_x(z_1)-\frac{1}{2L}||\nabla h_x(z_1)||^2 \end{equation}$
整理可得：
$\begin{equation} h_x(z_2)\le h_x(z_1)-\frac{1}{2L}||\nabla h_x(z_1)||^2 \end{equation}$
我们已经求过 $h_x(z)$ 取得最小值0,且在 z=x上取得，即所以可得：
$\begin{equation} h_x(x)\le h_x(z_2)\le h_x(z_1)-\frac{1}{2L}||\nabla h_x(z_1)||^2 \end{equation}$
将 $z_1$ 换为y可得：
$\begin{equation} h_x(x)\le h_x(y)-\frac{1}{2L}||\nabla h_x(y)||^2 \end{equation}$
整理可得：
$\begin{equation} h_x(y)-h_x(x)\ge \frac{||\nabla h_x(y)||^2}{2L} \end{equation}$
我们上面已经定义如下：
$\begin{equation} \Delta_1=h_x(y)-h_x(x)；\nabla h_x(y)=\nabla f(y)-\nabla f(x) \end{equation}$
整理后可得，居然跟第17公式一样，我们就这样完美证明了：
$\begin{equation} \Delta_1\ge \frac{||\nabla f(y)-\nabla f(x)||^2}{2L} \end{equation}$
同理可证：
$\begin{equation} \Delta_2\ge \frac{||\nabla f(y)-\nabla f(x)||^2}{2L} \end{equation}$
$\Delta_1+\Delta_2$ 可得：

$\begin{equation} \Delta_1+\Delta_2\ge \frac{||\nabla f(y)-\nabla f(x)||^2}{L} \end{equation}$
$\begin{equation} \Delta_1+\Delta_2=[\nabla f(x)-\nabla f(y)]^T(x-y) \end{equation}$