Note_AGQFL: Communication-efficient Federated Learning via Automatic Gradient Quantization in Edge H_communication-efficient federated learning with ve-CSDN博客

本文链接：https://blog.csdn.net/wanghuiyu001/article/details/132057614

文章提出AGQFL算法，通过MQI衡量模型收敛能力，动态调整量化精度以解决FL中的通信异质性问题。它包含量化指示器、策略和优化器模块，针对带宽差异和模型性能进行智能决策。然而，文章也讨论了获取带宽信息、动态带宽处理以及量化策略的局限性。

摘要由CSDN通过智能技术生成

AGQFL: Communication-efficient Federated Learning via Automatic Gradient Quantization in Edge Heterogeneous Systems
Zirui Lian, Jing Cao, Yanru Zuo, Weihong Liu, Zongwei Zhu*
International Conference on Computer Design (ICCD)
CCF B 会
2021

一、动机和贡献

动机：边缘设备带宽的不同导致 ”通信异质性” 的问题，但是现阶段FL的量化却使用固定量化精度，这就导致了 “straggler” 问题。
注：straggler 问题是指，在FL同步更新策略中，通信速度慢的client会减缓全局轮数。

贡献：提出了一种 AGQFL 算法框架，用以平衡 通讯速度 和 模型收敛精度。主要包括三个模块，即：

quantization indicator module：设计了一种指示器，MQI，用以测量模型的 “收敛能力”，并决定后续量化精度调整方向（增加/减少）。具体来说，如果 “当前模型” 收敛能力强于 “历史模型”，那么降低量化精度以保证速度；反之，增加量化精度以保证收敛。
quantization strategy module：根据每个客户端的 实际设备带宽 和 模型收敛能力（MQI），给出具体调整client的量化精度的幅度。
quantization optimizer module：通过对 学习率 的调整，设计了新的优化器（optimizer）来进一步增加模型收敛性能。

二、算法设计

2.1 Quantization Indicator

核心思想：一般来说，随着量化精度地下降，模型的方差会逐渐增大，这就导致了训练过程中较大的梯度误差，导致模型泛化性能下降。本文设计的 Indicator 通过定义 $MQ I$ 来近似模拟模型方差（即表征模型泛化能力）。通过对某个 client 的 历史模型 $MQ I$ 和 当前模型 $MQ I$ 的对比，得到模型下一步量化精度的方向（增加/减少）。
$\text{量化精度}\downarrow\Rightarrow\text{模型方差}\uparrow\Rightarrow\text{梯度误差}\uparrow\Rightarrow\text{泛化能力}\downarrow$ 。

$MQ I$ 定义如下：
$\frac{\|W\|_2}{\|g\|_2},$
其中， $W$ 表示模型权重， $g$ 表示梯度值， $\|\cdot\|$ 表示2范数。如下图所示，展示了 $MQ I$ 和模型方差之间的关系。从中可以得出结论： $MQ I$ 和模型方差呈反比关系，因此可以通过 $MQ I$ 表征模型泛化能力。
$\uparrow\Rightarrow \text{模型方差}\downarrow\Rightarrow\text{模型泛化能力}\uparrow\Rightarrow\text{量化精度需}\downarrow$
$\downarrow\Rightarrow \text{模型方差}\uparrow\Rightarrow\text{模型泛化能力}\downarrow\Rightarrow\text{量化精度需}\uparrow$
MOI与模型方差的关系

但是，直接粗略地通过 $MQ I$ 的变化来决定量化方向是不太合理的。文章采用 “自适应动量估计” 的思想，即定义：
$\begin{equation*} \begin{split} &\text{历史}~MQI^h_t=\beta*MQI^h_{t-1}+(1-\beta)*MQI_t,\\ &\text{差值}~\Delta MQI_t=MQI_t-MQI^h_t. \end{split} \end{equation*}$

2.2 Quantization Strategy

核心思想：根据client的通信带宽，定义一个概率函数 $b\sim\beta N(b^k_{init},1)$ ，其中 $b^k_{init}$ 表示当前客户端最有可能选择的量化精度（谨慎远离 $b_{init}$ 量化精度）。若当前量化精度 $b_l>b_{init}$ ，则采用 “慢增快降” 策略；反之，采用 “慢降快增” 策略。和 $MQ I$ 结合可以描述为：
$b_l>b_{init} ~\&~\begin{cases} \Delta MQI_t>\text{threhold}_1 & \Rightarrow \text{增}\uparrow\\ \Delta MQI_t<\text{threhold}_2 & \Rightarrow \text{降}\downarrow\downarrow\downarrow \end{cases}\\ b_l<b_{init} ~\&~\begin{cases} \Delta MQI_t>\text{threhold}_1 & \Rightarrow \text{增}\uparrow\uparrow\uparrow\\ \Delta MQI_t<\text{threhold}_2 & \Rightarrow \text{降}\downarrow \end{cases}$ 用一句话概括为： $MQ I$ 决定了量化方向（增/降）； $b_{init}$ 决定了量化速度（快/慢）。

注：每个client的通信带宽是静态的，同时必须提前测量好，这样才能为每个client估计相应的 $b_{init}$ 。

具体的更新策略可以描述为：
$\begin{equation*} \begin{split} &\text{criterion:}\quad||\Delta MQI_{t}||>\alpha*MQI_{t}\\ &\text{update:}\quad b^{k} =b_l^k+\boldsymbol{sgn}[b_{init}^k-b_l^k]\\ &\qquad\qquad\qquad\qquad*\boldsymbol{min}[1,-sgn(\Delta MQI_t)*\boldsymbol{\gamma}*(\boldsymbol{N}(b_{init}^{k})-\boldsymbol{N}(b_{l}^{k}))] \end{split} \end{equation*}$ 其中， $\alpha$ 表示超参； $N(\cdot)$ 表示基于概率的选择函数，可以保证量化精度尽可能保持到初始精度，即在 $b_{init}$ 附近。
注：目前感觉这个公式有问题，尤其是 $N(\cdot)$ 原文没有定义，但是公式想表达的思想是明确的。

2.3 Quantization Optimizer

核心思想：根据一个得出的结论，认为可以通过调整学习率 $\eta$ 的方式增加模型的收敛性能，降低模型误差，提高模型泛化能力。

神经网络中，通常使用如下准则定义模型的收敛性能，即：
$R(T)=\sum_{t=1}^T(f_t(w_t)-f_t(w^*))$ 其中， $T$ 表示训练总轮数； $w^*$ 表示 $t$ 轮时理论最佳模型权重。模型收敛意味着： $\text{当}t\rightarrow\infty\text{时}，R(T)\rightarrow 0$ 。

Theorem 1：可以有如下结论：
$\frac{R(T)}{T}\leq\frac{D_{\infty}}{2T\eta_{t}}+\frac{D_{\infty}}{T}\sum_{t=1}^{T}||\varepsilon_{t}||+\frac{1}{T}\sum_{t=1}^{T}\frac{\eta_{t}*S*||\varepsilon_{t}||^{2}}{2\sqrt{m}}$ 其中， $S$ 表示量化精度； $\|\varepsilon_t\|$ 表示量化误差。因此可以得出：
$R(T)\propto\eta_t,S,\|\varepsilon_t\|$ 而根据2.2中描述，通过控制量化精度 $S$ 来控制量化误差 $\|\varepsilon_t\|$ ，因此可以通过将学习率调整为 $\|\varepsilon_t\|$ 的反方向（即 $S$ 正方向）来进一步促进模型收敛。

由2.1可知，量化精度的方向是由 $MQ I$ 决定的，因此优化算法如下：
$W_{t+1}=W_t-\eta_t*\rho_t*\bigtriangledown f(W_t)\\\rho_t=\mu*cos<g_t,\hat{g}_t>*\frac{||W_t||_2}{||g_t||_2+wd*||W_t||_2}$ 其中， $w d$ 表示正则化参数； $cos<g_t,\hat{g}_t>$ 表示量化前后梯度向量的余弦相似度； $\mu$ 表示一个超参。