参考文献:Stochastic Gradient Descent for Non-smooth Optimization:
Convergence Results and Optimal Averaging Schemes
文章分析了:
- Individual SGD Iterates的收敛性。
-
对于强凸的情况,期望误差为:
O(log(T)/T)
对于一般凸的情况,期望误差为:
O(log(T)/T−−√)
算法结束后,返回最后一次迭代的结果。
- Averaging Schemes的收敛性。
-
对于强凸的情况,期望误差为:
O(1/T)
对于一般凸的情况,期望误差为:
O(1/T−−√)
算法结束后,返回多次迭代的平均结果(依据不同的算法,产生不同的平均策略)
定义:
λ−stronglyconvex :
如果对于所有的 w ,
F(w′)≥F(w)+<g,w′−w>+λ2||w′−w||2
其中, λ>0 。那么,那么称函数 F 是
Individual SGD Iterates的收敛性
理论1:
假定函数
F
是
E[F(wT)−F(w∗)]≤17G2(1+log(T)λT
理论2:
假定函数 F 是凸函数,并且对于某些常数:
E[||g^t||2]≤G2forallt
supw,w′∈W||w=w′||≤D
考虑步长为 ηt=c/t√ ,其中 c>0 是一个常数。那么对于任何的 T>1 ,总是满足下面的不等式:
E[F(wT)−F(w∗)]≤(D2c+cG2)2+log(T)T−−√
Averaging Schemes的收敛性
1、
α−suffixaveraging
**
即定义为最后
αT
次迭代的平均:
w¯¯¯αw=1αT∑t=(1−α)T+1Twt
缺点不能on-the-fly,需要存储后 αT 次的 wt
2、维持所有直到 t 次的平均:
能够on-the-fly,仅获得次优的边界: O(log(t)/t .
3、 polynomial−decayaveraing -作者提出的。
它具有两个优点:1、可以on-the-fly的计算,即实时的计算。2、它给出了一个最优的收敛速度。对于任意的 t>1 ,其迭代计算公式如下:
w¯¯¯ηt=(1−η+1t+η)w¯¯¯ηt−1+η+1t+ηwt
其中 w¯¯¯η1=w1 , η≥0 ,通常 η 取一个比较小的数,例如 η=3 .
当 η=0 时,其变成上述的2。
理论4:
假定 F 是一个
E[F(wηT)−F(w∗)≤58(1+ηT)(η(η+1)+(η+0.5)3(1+log(T))T)G2λT
即算法的更新策略为:
- 计算次梯度 g^t
- 权重
w
更新迭代公式:
wt+1=Π(wt−ηtg^t)(1) 平均权重 w¯¯¯ 更新迭代公式:
w¯¯¯ηt=(1−η+1t+η)w¯¯¯ηt−1+η+1t+ηwt
为了统一,上面的公式变为:
w¯¯¯ηt+1=(1−η+1t+η)w¯¯¯ηt+η+1t+ηwt+1(2)算法终止,返回 w¯¯¯t , t 表示算法终止时,当前的迭代次数。
注意,公式(1)中的
ηt 和公式(2)中的 η 是完全不同的。