【优化】梯度下降收敛性证明

最新推荐文章于 2024-07-07 10:12:40 发布

shenxiaolu1984

最新推荐文章于 2024-07-07 10:12:40 发布

阅读量2.9w

点赞数 17

分类专栏：机器学习算法文章标签：算法数值分析最优化

本文链接：https://blog.csdn.net/shenxiaolu1984/article/details/52577996

版权

梯度下降方法的收敛率是 $O (1 / t)$ 。

本文首先介绍梯度下降算法的定义，之后解释收敛性的意义，并给出梯度下降算法收敛性详细证明过程¹。

梯度下降算法

设系统参数为 $x$ 。对于样本 $i$ ，其代价函数为 $f_i(x)$ 。在n个样本组成的训练集上，其整体代价函数为：
$f(x)=\sum_{i=1}^nf_i(x)$

要求 $\omega$ 使得上式最小，由于没有闭式解，需要通过近似迭代逐步逼近。

梯度下降(Gradient Descent)以 $\eta$ 为学习率，在每次迭代中用一阶泰勒展开近似：
$x_{t+1}=x_t - \eta\nabla f(x)$

设 $x$ 的维度为D，代价函数 $f$ 是个标量，梯度 $\nabla f(x)$ 也是一个D维向量。

序列的收敛性

基础定义

有序列 ${x_t\}$ ，如果序号 $t$ 趋于无穷时，满足以下条件：
$\lim_{t\to \infty}\frac{x_{t+1}-x^*}{x_t-x^*}=\mu$
则称该方法收敛到 $x^*$ ，收敛率为 $\mu$ , $\mu\in(0,1)$ 。也称为以 $\mu$ 收敛到 $x^*$ 。

例：数列 ${1,1/2,1/4,1/8...}$ 收敛到 $L = 0$ ，收敛率为 $1 / 2$ 。

扩展定义

还有一些序列也会随着序号趋于某个定值，但是收敛的速率随着下标发生变化。这里引入一个扩展的收敛率定义。
如果存在序列 $\{ \epsilon_t \}$ ，根据基础收敛率定义，以收敛率 $\mu$ 收敛到0。
则如果序列 ${x_t\}$ 满足：
$|x_t-x^*|<\epsilon_t$
称该方法收敛到 $x^*$ ，收敛率为 $\epsilon_t$ 。

例：数列{1,1,1/4,1/4,1/16,1/16…}收敛到 $L = 0$ ，收敛率为 $\epsilon_t=\frac{1}{2^{t-1}}$ ={2,1,1/2,1/4,1/8,1/16…}。

梯度下降的收敛性

当我们说“梯度下降的收敛性为 $1 / t$ ”时，我们指的是：

当 $t$ 趋于无穷时，代价函数 $f(x_t)$ 收敛到最优解 $f(x^*)$ ，收敛率为 $\epsilon_t=O(1/t)$ 。

引理

这部分为收敛性证明做准备，步骤较曲折，请关注大流程。
##Lipschitz连续
如果标量函数 $f (x)$ 满足如下条件，称其满足Lipschitz连续性条件。
$|f(x_1)-f(x_2)| \leq L||x_1-x_2||$
其中 $∣ ∣ x ∣ ∣$ 表示向量的模长， $L$ 称为Lipschitz常数。对于固定的 $f$ ， $L$ 是一个定值。
这个条件对函数值的变化做出了限制。

$\beta$ 平滑

进一步，如果函数 $f (x)$ 的梯度满足值为 $\beta$ 的Lipschitz连续，称函数 $f (x)$ 为 $\beta$ 平滑：

$||\nabla f(x)- \nabla f(y)||^2\leq \beta ||x-y||^2$

其中 $x||^2=x^Tx$ 。这个条件对函数梯度的变化进行了约束：梯度之差的模长，不会超过自变量之差模长的常数倍。

$\beta$ 平滑性质1

满足 $\beta$ 平滑的函数有如下性质：

$|f(x)-f(y)-\nabla f(y)^T(x-y) | \leq \frac{\beta}{2}||x-y||^2$

证明如下：

构造一个插值函数 $g (t) = f (y + t (x - y))$ ，其关于 $t$ 的导数：
$g'(t)=\nabla f(y+t(x-y))^T(x-y)$

可以把函数值之差转化为积分：
$f(x)-f(y)=g(1)-g(0)=\int_0^1g'(t)\,dt=\int_0^1\nabla f(y+t(x-y))^T(x-y)\,dt$

代入左侧：
$|\int_0^1...\,dt-\nabla f(y)^T(x-y)|$
第二项是和 $t$ 无关的常数，可以直接写入[0,1]的积分中：
$|\int_0^1...\,dt-\int_0^1\nabla f(y)^T(x-y)\,dt|$

两个积分号合并：

最低0.47元/天解锁文章

shenxiaolu1984

关注

17
点赞
踩
103

收藏

觉得还不错? 一键收藏
13
评论
【优化】梯度下降收敛性证明

梯度下降方法的收敛率是O(1/t)O(1/t)。本文首先介绍梯度下降算法的定义，之后解释收敛性的意义，并给出梯度下降算法收敛性详细证明过程1。梯度下降算法设系统参数为xx。对于样本ii，其代价函数为fi(x)f_i(x)。在n个样本组成的训练集上，其整体代价函数为： f(x)=∑i=1nfi(x)f(x)=\sum_{i=1}^nf_i(x)要求ω\omega使得上式最小，
复制链接

扫一扫