联邦学习的收敛性分析(全设备参与，不同本地训练轮次)

不搞学术柒柒

已于 2025-04-30 19:43:27 修改

阅读量689

点赞数 14

文章标签：深度学习

于 2025-04-30 19:42:35 首次发布

本文链接：https://blog.csdn.net/qq_42890035/article/details/147639014

版权

联邦学习的收敛性分析

在这里插入图片描述

在联邦学习中，我们的目标是分析全局模型的收敛性，考虑设备异构性（不同用户的本地训练轮次不同）和数据异质性（用户数据分布不均匀）。以下推导从全局模型更新开始，逐步引入假设并推导期望损失的递减关系，最终给出收敛性结论。

1. 全局模型更新与泰勒展开

全局模型更新

在联邦学习中，设全局模型在第 $t$ 轮为 $g_t$ ，共有 $U$ 个用户参与训练。每个用户 $k$ 从全局模型 $g_t$ 开始（即 $w_t^{k, 0} = g_t$ ），进行 $l_k^t$ 轮本地梯度下降更新：

$w_t^{k, i+1} = w_t^{k, i} - \eta \nabla \mathcal{G}_t^{k, i},$

其中 $\eta$ 是学习率， $\nabla \mathcal{G}_t^{k, i}$ 是用户 $k$ 在第 $i$ 轮本地训练时的梯度。经过 $l_k^t$ 轮训练后，用户 $k$ 的本地模型为：

$w_t^{k, l_k^t} = w_t^{k, 0} - \eta \sum_{i=0}^{l_k^t - 1} \nabla \mathcal{G}_t^{k, i} = g_t - \eta \sum_{i=0}^{l_k^t - 1} \nabla \mathcal{G}_t^{k, i}.$

全局模型通过聚合所有用户的本地模型得到：

$g_{t+1} = \frac{1}{U} \sum_{k=1}^U w_t^{k, l_k^t} = g_t - \frac{\eta}{U} \sum_{k=1}^U \sum_{i=0}^{l_k^t - 1} \nabla \mathcal{G}_t^{k, i}.$

泰勒展开

为了分析全局损失 $F(g_{t+1})$ 的变化，我们对 $F(g_{t+1})$ 在 $g_t$ 处进行二阶泰勒展开：

$F(g_{t+1}) \approx F(g_t) + \nabla F(g_t)^T (g_{t+1} - g_t) + \frac{1}{2} (g_{t+1} - g_t)^T \nabla^2 F(g_t) (g_{t+1} - g_t).$

代入 $g_{t+1} - g_t = -\frac{\eta}{U} \sum_{k=1}^U \sum_{i=0}^{l_k^t - 1} \nabla \mathcal{G}_t^{k, i}$ ：

$F(g_{t+1}) \approx F(g_t) - \frac{\eta}{U} \nabla F(g_t)^T \left( \sum_{k=1}^U \sum_{i=0}^{l_k^t - 1} \nabla \mathcal{G}_t^{k, i} \right) + \frac{\eta^2}{2} \left( \frac{1}{U} \sum_{k=1}^U \sum_{i=0}^{l_k^t - 1} \nabla \mathcal{G}_t^{k, i} \right)^T \nabla^2 F(g_t) \left( \frac{1}{U} \sum_{k=1}^U \sum_{i=0}^{l_k^t - 1} \nabla \mathcal{G}_t^{k, i} \right).$