随机梯度下降求解非平滑优化：收敛结果和最优平均策略。

最新推荐文章于 2023-05-08 01:46:34 发布

机器学习的小学生

最新推荐文章于 2023-05-08 01:46:34 发布

阅读量1.6k

点赞数

分类专栏：凸优化

本文链接：https://blog.csdn.net/raby_gyl/article/details/51854076

版权

凸优化专栏收录该内容

28 篇文章 6 订阅

订阅专栏

参考文献：Stochastic Gradient Descent for Non-smooth Optimization:
Convergence Results and Optimal Averaging Schemes

文章分析了：

- Individual SGD Iterates的收敛性。
-
对于强凸的情况，期望误差为：

O (l o g (T) / T)

$O(log(T)/T)$
对于一般凸的情况，期望误差为：

O (l o g (T) / T - - \sqrt)

$O(log(T)/\sqrt{T})$
算法结束后，返回最后一次迭代的结果。
- Averaging Schemes的收敛性。
-
对于强凸的情况，期望误差为：

O (1 / T)

$O(1/T)$
对于一般凸的情况，期望误差为：

O (1 / T - - \sqrt)

$O(1/\sqrt{T})$
算法结束后，返回多次迭代的平均结果（依据不同的算法，产生不同的平均策略）
定义：
$\lambda -strongly\quad convex$ ：
如果对于所有的

w $w$ ,

w′∈W $w'\in W$ ,以及函数

F $F$ 在

w $w$ 处的任意梯度，下面的不等式成立：

F (w') \geq F (w) + < g, w' - w > + λ 2 | | w' - w | | 2

$F(w')\geq F(w)+<g,w'-w>+ \frac{\lambda}{2}||w'-w||^2$
其中，

λ>0 $\lambda>0$ 。那么，那么称函数

F $F$ 是

λ−stronglyconvex $\lambda -strongly\quad convex$ 。当

λ=0 $\lambda=0$ 时，一般的凸函数总是满足上面的不等式。

Individual SGD Iterates的收敛性

理论1：
假定函数 $F$ 是 $\lambda -strongly\quad convex$ ，并且对于所有的 $t$ ,满足 $E[||\hat{g}_t||^2]\leq G^2$ 。考虑步长为 $\eta_t=1/{\lambda t}$ 的SGD。那么对于任何 $T>1$ ，满足下面的不等式：

E [F (w T) - F (w *)] \leq 17 G 2 ( 1 + l o g ( T ) λ T

$E[F(w_T)-F(w^*)]\leq \frac{17G^2(1+log(T)}{\lambda T}$
理论2：
假定函数

F $F$ 是凸函数，并且对于某些常数:

D,G $D,G$ ,满足：

E [| | g^t | | 2] \leq G 2 f o r a l l t

$E[||\hat{g}_t||^2]\leq G^2 \quad for all t$

sup w, w' \in W | | w = w' | | \leq D

$\sup_{{w,w'} \in W}||w=w'|| \leq D$
考虑步长为

ηt=c/t√ $\eta_t=c/{\sqrt t}$ ，其中

c>0 $c>0$ 是一个常数。那么对于任何的

T>1 $T>1$ ，总是满足下面的不等式：

E [F (w T) - F (w *)] \leq (D 2 c + c G 2) 2 + l o g ( T ) T - - \sqrt

$E[F(w_T)-F(w^*)]\leq (\frac{D^2}{c}+cG^2)\frac{2+log(T)}{\sqrt{T}}$

Averaging Schemes的收敛性

1、 $\alpha -suffix\quad averaging$ **
即定义为最后 $\alpha T$ 次迭代的平均：

w ¯ ¯ ¯ α w = 1 α T \sum t = (1 - α) T + 1 T w t

$\overline{w}_w^\alpha =\frac {1}{\alpha T} \sum_{t=(1-\alpha)T+1}^T w_t$
缺点不能on-the-fly，需要存储后

αT $\alpha T$ 次的

wt $w_t$
2、维持所有直到 $t$ 次的平均：

w ¯ ¯ ¯ t = (1 - 1 t) w ¯ ¯ ¯ t - 1 + 1 t w t

$\overline w_t=(1-\frac{1}{t})\overline w_{t-1} +\frac{1}{t} w_t$
能够on-the-fly，仅获得次优的边界：

O(log(t)/t $O(log(t)/t$ .
3、 $polynomial-decay averaing$ -作者提出的。
它具有两个优点：1、可以on-the-fly的计算，即实时的计算。2、它给出了一个最优的收敛速度。对于任意的

t>1 $t>1$ ，其迭代计算公式如下：

w ¯ ¯ ¯ η t = (1 - η + 1 t + η) w ¯ ¯ ¯ η t - 1 + η + 1 t + η w t

$\overline w_t^\eta=(1-\frac{\eta+1}{t+\eta})\overline w_{t-1}^\eta +\frac{\eta+1}{t+\eta} w_t$
其中

w¯¯¯η1=w1 $\overline w_1^\eta=w_1$ ，

η≥0 $\eta \geq0$ ，通常

η $\eta$ 取一个比较小的数，例如

η=3 $\eta=3$ .
当

η=0 $\eta=0$ 时，其变成上述的2。
理论4：
假定

F $F$ 是一个

λ−stronglyconvex $\lambda -strongly\quad convex$ ，并且

E[||g^t||2]≤G2 $E[||\hat{g}_t||^2]\leq G^2$ 。考虑步长为

ηt=1/λt $\eta_t=1/{\lambda t}$ 和初始值为

w1 $w_1$ 的SGD。同样的，我们令

η≥1 $\eta \geq 1$ 是一个整数。那么:

E [F (w η T) - F (w *) \leq 58 (1 + η T) (η (η + 1) + ( η + 0.5 ) 3 ( 1 + l o g ( T ) ) T) G 2 λ T

$E[F(w_T^\eta)-F(w^*)\leq58(1+\frac{\eta}{T})(\eta(\eta+1)+\frac{(\eta+0.5)^3(1+log(T))}{T})\frac{G^2}{\lambda T}$
即算法的更新策略为:

计算次梯度 $\hat{g}_t$
权重 $w$ 更新迭代公式：
$w t + 1 = Π (w t - η t g^t) (1)$ $w_{t+1}=\Pi(w_t-\eta_t\hat{g}_t) \quad(1)$
平均权重 $\overline w$ 更新迭代公式：

$w ¯ ¯ ¯ η t = (1 - η + 1 t + η) w ¯ ¯ ¯ η t - 1 + η + 1 t + η w t$ $\overline w_t^\eta=(1-\frac{\eta+1}{t+\eta})\overline w_{t-1}^\eta +\frac{\eta+1}{t+\eta} w_t$
为了统一，上面的公式变为：
$w ¯ ¯ ¯ η t + 1 = (1 - η + 1 t + η) w ¯ ¯ ¯ η t + η + 1 t + η w t + 1 (2)$ $\overline w_{t+1}^\eta=(1-\frac{\eta+1}{t+\eta})\overline w_{t}^\eta +\frac{\eta+1}{t+\eta} w_{t+1}\quad (2)$
算法终止，返回 $\overline w_t$ ， $t$ 表示算法终止时，当前的迭代次数。

注意，公式（1）中的 $\eta_t$ 和公式（2）中的 $\eta$ 是完全不同的。