【dSAGA】Distributed SAGA Maintaining linear convergence rate with limited communication

最新推荐文章于 2024-07-26 13:24:37 发布

Martinwxx

最新推荐文章于 2024-07-26 13:24:37 发布

阅读量157

点赞数

文章标签：人工智能机器学习深度学习

本文链接：https://blog.csdn.net/qq_41444809/article/details/126490996

版权

减小方差的随机方法

解决问题：强凸函数和的最小化

$f(w)=\sum^N_{i=1} f_i(w)$
$f_i$ 是特定数据点的损失， $N$ 是训练集的大小
两种方法：

现有随机方差减小：SDCA、SVRG、SAGA、MISO
这些方法假定所有示例都在一个机器上，且可立即访问参数向量。

导致两个问题：

随机方法不如批处理方法主要因为节点间通信成本高。

分布式随机方法还可以使用一个或多个参数服务器（Downpour SGD）

假设有 $K$ 台机器，每台机器都可以访问数据点的一个子集。

每台机器存储数据点子集和相关梯度。通信成本过高。

SAGA：为每个数据点计算的最后一个梯度保存在内存中。

这些梯度是在不同时间使用不同的参数向量值计算的。

分布式SAGA不更新所有梯度（来自其他节点的陈旧梯度）

每隔一段时间，每个节点就会向其他节点传递其在参数空间中的当前位置以及存储的梯度之和。

在这里插入图片描述
dSAGA：

模型参数 $w_k^{t,u}$ ： $t$ 是同步的索引， $u$ 是自上次同步以来的迭代。
节点 $k$ 上的第 $i$ 个点由配对 $(i, k)$ 表示， $f_{k,i}$ 表示梯度 $g_{k,i}$ 的损失，节点 $k$ 的梯度为 $g_k=\frac{1}{K}\sum_ig_{k,i}$
$\hat{g}_k(w^{t,u}_k)$ 是节点 $k$ 在模型参数 $w^{t,u}_k$ 上的平均梯度近似。
即当节点 $k$ 到达 $w^{t,u}_k$ 时，我们查看节点 $k$ 上所有点的存储 $g_{k,i}(\phi^{t,u}_k)$ ，令 $\hat{g}_k(w^{t,u}_k)=\frac{1}{K}\sum_ig_{k,i}(\phi^{t,u}_k)$
与其他节点同步之前，每个节点将执行 $U$ 回遍历数据，每个节点有 $\frac NK$ 个数据点，故， $U=\frac{uN}{K}$

在这里插入图片描述

关注