凸优化简介26

最新推荐文章于 2023-09-17 16:47:18 发布

qq_36573282

最新推荐文章于 2023-09-17 16:47:18 发布

阅读量401

点赞数

文章标签：凸优化

本文链接：https://blog.csdn.net/qq_36573282/article/details/105657364

版权

本文介绍了凸优化中降低Variance的方法，重点关注有限和问题及其在机器学习和分布式优化中的应用。讨论了增量梯度下降法，包括随机和确定性的算法，并深入解析了SVRG算法的原理和优势，以及其在处理大规模数据时的效率提升。

摘要由CSDN通过智能技术生成

文章目录

降低 Variance的方法

降低 Variance的方法

1. 有限和问题(Finite Sum Problems)

有限和问题的形式为：
$\min\limits_{x\in \mathbb{R}^d}f(x)\triangleq \frac{1}{n}\sum\limits_{i=1}^{n}f_i(x)$
该形式与样本平均近似方法类似。在机器学习中，通常使用的是 $\min\limits_{x\in \mathbb{R}^d}f(x)\triangleq \frac{1}{n}\sum\limits_{i=1}^{n}f_i(x)+\psi(x)$ 。
有限和问题在很多地方都有应用：

经验风险最小化(Empirical risk minimization) 在机器学习中，针对假设 $h$ 的risk使用经验风险 $R (h)$ 近似：
$R(h)=\frac{1}{n}\sum\limits_{i=1}^{n}L(h(x_i),y_i)$
分布式优化 在分布式优化中，有限和在计算集群上完成，使用基于迭代共识(iterative consensus)以及局部梯度的算法。

2. 增量梯度下降方法(Incremental gradient descent)

基于增量梯度下降方法的算法可以分为确定性的与随机的。其中，确定性的算法包括：

1997年 Bertsekas提出的 Incremental Gradient Descent;
Blatt 等在2007年提出的 Incremental Aggregated Gradient

随机性的算法包括：

Schmidt 等在2007年提出的 Stochastic Average Gradient;
Defazio 等在2014年提出的 SAGA;
Johnson and Zhang在2013年提出的 Stochastic Variance Reduced Gradient;
Lan and Zhou 在2018年提出的 Randomized Primal-Dual Gradient

假设要估计 $\Theta=\mathbb{E}[X]$ ，并且有一个随机变量 $Y$ 与 $X$ 相关，并且计算 $\mathbb{E}[Y]$ 相对要更容易。考虑下面一个point estimator:
$\hat{\Theta}_a=a(X-Y)+\mathbb{E}[Y]$ ，其中 $a\in [0,1]$ 。其期望与方差为：
$\mathbb{E}[\hat{\Theta}_a]=a\mathbb{E}[X]+(1-a)\mathbb{E}[Y]\\ Var[\hat{\Theta}_a]=a^2(Var[X]+Var[Y]-2Cov[X,Y])$

当 $a = 1$ 时，estimator为 $(X-Y)+\mathbb{E}[Y]$ ，是一个无偏的估计；
当 $a = 0$ 的时候，estimator为一个常量 $\mathbb{E}[Y]$ ，variance为0，但是可能有较大的bias；
如果 Cov[X,Y]足够的大，那么 $Var[\hat{\Theta}_a]<Var[X]$ ，即当前估计的variance小于直接对 $X$ 的估计；
因此，可以得到，随着 $a$ 从0到1的增大，bias减小并且variance增大。

3. SVRG

如果当前迭代与前面的迭代不远，则历史的梯度信息可以用于降低variance，得到更好的估计。
对于凸且L-smooth的函数 $f_i$ ，考虑下面的目标函数：
$\min\limits_{x\in \mathbb{R}^d}f(x)=\frac{1}{n}\sum\limits_{i=1}^{n}f_i(x)$
其中 $f$ 是 $\mu-strongly$ 的。
SVRG的思想是，增强之前的梯度信息来帮助提升收敛率。如果能够获取到历史上的某个点 $x^{old}$ 以及梯度 $\nabla F(x^{old})$ ，那么：
$\nabla f_{i_t}(x^t)-\nabla f_{i_t}(x^{old})+\nabla f(x^{old})$
其中 $i_t\sim U[1,n]$
算法的描述如下：

参数：更新频率 $m$ ，学习率 $\eta$
初始化: $\widetilde{x}_0$
for s=1,2,… do
$\widetilde{x}=\widetilde{x}^{s-1}$
$\widetilde{\theta}=\frac{1}{n}\sum\limits_{i=1}^{n}\nabla f_i(\widetilde{x})$
$x_0=\widetilde{x}$
for t=1,2,…,m do
随机选择 $i_t\in \{1,2,...,n\}$ 并更新权重
$x_t=x^{t-1}-\eta (\nabla f_{i_t}(x^{t-1})-\nabla f_{i_t}(\widetilde{x})+\widetilde{\theta})$
end for
更新 $\widetilde{x}^s$
选择1： $\widetilde{x}^s=x^m$