TPAMI2025,说是解决特征偏移问题,但从实验看其他数据异构也一并改善了。文章和题目一样干了特征增强和特征对齐两件事。特征增强部分套了两次高斯拟合,搞得很复杂,没法一句话说清楚。特征对齐部分是截断成直方图,然后双向KL散度。
论文:目前好像只有ieee能搜到
代码:只找到ICLR2023的会议版本
贡献
- FedFA+算法:我们解决基于异构 FL 的问题探索特征统计。首先,我们引入了 FedFA-l来降低局部数据集偏差的影响。它基于低阶特征统计的原则性概率建模,有助于更广泛地探索特征空间。其次,我们提出了 FedFA-h,它能够强化通过明确调整高阶特征统计数据,确保客户端之间增强特征的一致性。
- 理论分析:我们提供严格的理论分析FedFA-l 的分析表明,它通过规范潜在表示的梯度,隐式地将正则化引入局部模型学习,并通过从整个联合中得出的特征统计方差进行加权。
- 实验分析:通过对五个基准测试中,我们展示了 FedFA+ 在以下方面的优势:(i)对不同类型异质性的鲁棒性,
(ii)对新的(未见过的)测试客户端的推广,
(iii)处理极小的本地数据集和数千个客户端。
标签异构、特征异构、多客户端少样本、
动机
在先前的研究中发现,一阶/二阶特征统计量能够囊括关键的领域感知特征,因此可以将其视为“参与联邦的客户的特征”。作者认为联邦学习中的特征偏移问题可以解释为这些低阶特征统计量的偏移,而不论偏移的来源是什么。联想到可以通过多元高斯分布对增强过程进行建模。均值设置为原始统计量,方差为覆盖潜在的分布偏移,则可以从高斯分布中抽取样本合成新的统计量。重点就是这个高斯分布要怎么取。
如果仅依赖于低阶统计量,这限制了其充分捕捉高维特征表示复杂性的能力。此外,它只专注于在特征空间内促进探索,而没有明确解决域对齐问题。需要估计一个涵盖所有客户端的全局高阶特征统计量,该统计量作为每个客户端都需要与之对齐的目标分布。
算法-FedFA l ^l l
概率一阶/二阶统计建模:
FedFA l ^l l 属于标签保持特征增强的范畴。在训练过程中,它为每个客户端 m m m 的每个卷积层 h k h^k hk 估计一个邻近分布 V m k \mathbb{V}_m^k Vmk,随后用于增强相应的潜在特征。
将 X m k ∈ R B × C × H × W X_m^k \in \mathbb{R}^{B \times C \times H \times W} Xmk∈RB×C×H×W 表示为 B B B 个mini-batch图像的中间特征表示,空间大小为 ( H × W ) (H \times W) (H×W),通道数为 C C C, Y m k Y_m^k Ymk 为相应的标签。 V m k \mathbb{V}_m^k Vmk 是标签保持的,因为 V m k ( X ^ m k , Y ^ m k ∣ X m k , Y m k ) ≜ V m k ( X ^ m k ∣ X m k ) δ ( Y ^ m k = Y m k ) \mathbb{V}_m^k(\hat{X}_m^k, \hat{Y}_m^k | X_m^k, Y_m^k) \triangleq \mathbb{V}_m^k(\hat{X}_m^k | X_m^k) \delta(\hat{Y}_m^k = Y_m^k) Vmk(X^mk,Y^mk∣Xmk,Ymk)≜Vmk(X^mk∣Xmk)δ(Y^mk=Ymk),即它仅转换潜在特征 X m k X_m^k Xmk 到 X ^ m k \hat{X}_m^k X^mk,但标签 Y m k Y_m^k Ymk 保持不变。
我们的方法不是显式建模 V m k ( X ^ m k ∣ X m k ) \mathbb{V}_m^k(\hat{X}_m^k | X_m^k) Vmk(X^mk∣Xmk),而是通过操控通道特征统计来进行隐式特征增强。具体来说,对于 X m k X_m^k Xmk,其通道的一阶/二阶统计量,即均值 μ m k \mu_m^k μmk 和标准差 σ m k \sigma_m^k σmk,计算如下:
μ m k = 1 H W ∑ h = 1 H ∑ w = 1 W X m k ( h , w ) ∈ R B × C , σ m k = 1 H W ∑ h = 1 H ∑ w = 1 W ( X m k ( h , w ) − μ m k ) 2 ∈ R B × C , \mu_m^k = \frac{1}{HW} \sum_{h=1}^{H} \sum_{w=1}^{W} X_m^k(h, w) \in \mathbb{R}^{B \times C}, \space \space \space \space \space \sigma_m^k = \sqrt{\frac{1}{HW} \sum_{h=1}^{H} \sum_{w=1}^{W} (X_m^k(h, w) - \mu_m^k)^2} \in \mathbb{R}^{B \times C}, μmk=HW1h=1∑Hw=1∑WXmk(h,w)∈RB×C, σmk=HW1h=1∑Hw=1∑W(Xmk(h,w)−μmk)2∈RB×C,
其中 X m k ( h , w ) ∈ R B × C X_m^k(h, w) \in \mathbb{R}^{B \times C} Xmk(h,w)∈RB×C 表示空间位置 ( h , w ) (h, w) (h,w) 的特征。作为潜在特征的抽象,这些统计量携带领域特定的信息(例如,风格),并且对于图像生成至关重要。它们最近也被用于数据增强以提高图像识别能力。
在异构的联邦学习场景中,本地客户端之间的特征统计将不一致,并表现出未知的特征统计从真实分布的统计中偏移。我们的方法通过概率建模明确捕捉这种偏移。具体来说,我们不是用确定性统计 { μ m k , σ m k } \{\mu_m^k, \sigma_m^k\} { μmk,σmk} 来表示每个特征 X m k X_m^k Xmk,而是假设该特征基于概率统计 { μ ^ m k , σ ^ m k } \{\hat{\mu}_m^k, \hat{\sigma}_m^k\} { μ^mk,σ^mk} 进行条件化,这些统计是从原始统计的邻近区域采样的,基于多变量高斯分布:
μ ^ m k ∼ N ( μ m k , Σ ^ μ m k 2 ) , σ ^ m k ∼ N ( σ m k , Σ ^ σ m k 2 ) . \hat{\mu}_m^k \sim \mathcal{N} \left( \mu_m^k, \hat{\Sigma}_{\mu_m^k}^2 \right), \quad \hat{\sigma}_m^k \sim \mathcal{N} \left( \sigma_m^k, \hat{\Sigma}_{\sigma_m^k}^2 \right). μ^mk∼N(μmk,Σ^μmk2),σ^mk∼N(σmk,Σ^σmk2).
这里,每个高斯分布的中心对应于原始统计,而方差则期望捕捉从真实分布的潜在特征统计偏移。我们的核心目标是估计适当的方差 Σ ^ μ m k 2 \hat{\Sigma}_{\mu_m^k}^2 Σ^μmk2 和 Σ ^ σ m k 2 \hat{\Sigma}_{\sigma_m^k}^2 Σ^σmk2,以便于进行合理且信息丰富的增强。
我们的方法通过三个主要步骤实现这一点:(i) 客户端特定的统计方差估计,确定每个客户端内的局部方差;(ii) 客户端共享的统计方差估计,确定整个联邦的全局方差;(iii) 自适应方差融合,结合局部和全局方差以产生更有意义的估计。
客户端特定的统计方差估计:
在客户端一侧,我们根据每个mini-batch中的信息计算特征统计的客户端特定方差:
Σ μ m k 2 = 1 B ∑ b = 1 B ( μ m k , ( b ) − E B [ μ m k ] ) 2 ∈ R C , Σ σ m k 2 = 1 B ∑ b = 1 B ( σ m k , ( b ) − E B [ σ m k ] ) 2 ∈ R C , \Sigma_{\mu_m^k}^2 = \frac{1}{B} \sum_{b=1}^{B} (\mu_m^{k,(b)} - \mathbb{E}_B[\mu_m^k])^2 \in \mathbb{R}^C, \space \space \space \space \space \Sigma_{\sigma_m^k}^2 = \frac{1}{B} \sum_{b=1}^{B} (\sigma_m^{k,(b)} - \mathbb{E}_B[\sigma_m^k])^2 \in \mathbb{R}^C, Σμmk2=B1b=1∑B(μmk,(b)−EB[μmk])2∈RC, Σσmk2=B1b=1∑B(σmk,(b)−EB[σmk])2∈RC,
其中, μ m k , ( b ) ∈ R C \mu_m^{k,(b)} \in \mathbb{R}^C μmk,(b)∈RC 和 σ m k , ( b ) ∈ R C \sigma_m^{k,(b)} \in \mathbb{R}^C σmk,(b)∈RC 分别表示第 b b b 个图像的特征均值和标准差。 E B [ ⋅ ] \mathbb{E}_B[\cdot] EB[⋅] 计算沿批次维度的期望值。 Σ μ m k 2 \Sigma_{\mu_m^k}^2 Σμmk2 和 Σ σ m k 2 \Sigma_{\sigma_m^k}^2 Σσmk2 表示特定于每个客户端的特征均值 μ m k \mu_m^k μmk 和标准差 σ m k \sigma_m^k σmk 的方差。 Σ μ m k 2 \Sigma_{\mu_m^k}^2 Σμmk2 或 Σ σ m k 2 \Sigma_{\sigma_m^k}^2 Σσm