CD2-pFed:Cyclic Distillation-guided Channel Decoupling for Model Personalization in Federated Lear论文

CD2-pFed:联邦学习中模型个性化的循环蒸馏引导通道解耦

”CD2-pFed: Cyclic Distillation-guided Channel Decoupling for Model Personalization in Federated Learning“

前言

  这是一篇2022年发表在CVPR上的论文,论文全称:CD2-pFed: Cyclic Distillation-guided Channel Decoupling for Model Personalization in Federated Learning。用中文来说就是:联邦学习中模型个性化的循环蒸馏引导通道解耦。;作者分别是来自上海交通大学、加州大学圣克鲁斯分校和香港大学的Yiqing Shen, Yuyin Zhou, Lequan Yu。

论文下载链接:
1.arxiv直达链接
2.CVPR直达下载链接
3. 配套PPT文件

一、背景

  联邦学习(FL)面临的基本挑战之一是数据异构性。虽然独立同分布(IID)的概念很明确,但数据很多时候都是非IID的,在使用非 IID 数据时,FedAVG 的性能急剧下降。所以个性化联邦学习(PFL)被提出。人们提出了各种方法来实现联邦学习中的模型个性化。

二、相关工作

不同的参数解耦方式

  一种流行的解决方案是直接为每个本地客户端分配个性化参数。个性化参数在本地训练并且不与中央服务器共享。现有的工作已经尝试通过在顶层或底层分配个性化参数来实现个性化。在这里插入图片描述

  如上图所示,全局网络被解耦为个性化层和全局层。例如,LG-Fed将神经网络架构分为由 FedAvg 集中训练的基础层和与单独训练的底层个性化层。与LG-Fed非常相似,FedPer的底层为基础层,顶层为个性化层。
  我们观察到现有的个性化联邦学习(PFL)方法无法在数据异质性的综合设置上实现一致的泛化,导致性能下降 。FedPer 在可观察到的标签偏差(FLICKR-AES)上显示了其优越性,而 LG-Fed 在数据偏差(CIFAR 非 IID )上显示了其优越性。因此,我们提出了一种新型通道解耦方法来更好地实现个性化联邦学习。

CD2-pFed 框架

在这里插入图片描述
  这是我们提出的联邦学习中模型个性化的 CD2-pFed 框架的示意图。我们用蓝色和绿色来标记本地化的个性化层;橙色代表全局层。为了进一步增强通道解耦中个性化权重和共享权重之间的协作,我们设计了一种新颖的循环蒸馏方案来缩小它们之间的偏差。
  我们考虑一组 K 个客户端,它们都连接到一个中央服务器。每个客户端只能访问其本地数据(表示为 Di),客户端之间没有数据共享。我们工作的目标是训练 K 个模型的集合以适应本地数据集,而不与其他方交换本地数据。第 i 个客户端的网络 (i ∈ {1,···,K}) 由个性化参数 wi 和全局共享参数 w0 组成。我们将第 i 个客户端对应的损失函数表示为 Fi ,然后个性化联邦学习的总体目标定义如下:
在这里插入图片描述
  平衡权重 αi 取决于私有数据集的规模,即 αi =
,每个客户端的本地数据表示为 Di 。在这种情况下,我们考虑监督学习,从而导致:在这里插入图片描述
其中 li 计算给定输入图像 xi 时由 (w0, wi) 参数化的网络预测与真实标签 yj 之间的样本损失。

三、关键技术

1.模型个性化的通道解耦

  在通道解耦模块我们提出了渐近个性化比率增量方案,通道解耦部分示意图:
通道解耦部分示意图

  如下图所示,我们提出了一个垂直通道解耦框架。我们在目标模型的每一层从上到下分配自适应比例的可学习个性化权重。我们定义统一的个性化比率p ∈ [0, 1]来确定每层中个性化通道的精确比例。这 p 比例的通道参数是在本地训练的,无需中央服务器进行聚合。p值越大表示个性化程度越高。因此,当p=0时,情况会退化为没有模型个性化的传统FedAvg,相反,p=1表示在没有联邦通信的情况下完整的本地训练过程。
在这里插入图片描述
  与水平分层个性化策略(例如 LG-Fed 和 Fed-Per )相比,我们的垂直解耦策略明显的好处是实现从较低层到顶层的模型个性化,从而产生一个更通用的权重个性化框架,提高了解决更广泛数据异质性的能力。我们提出的通道解耦方案的一个关键要素是确定每一层中的个性化比率 p。此处p不是固定的,采用了渐进增量方案。
  在初始阶段,我们将p设置为一个较小的值,便于更快地学习全局表示,然后逐渐增加其值。因此,我们根据全局epoch数 T 逐渐增加 p 的值。这里我们应用线性增长方案,即 :
在这里插入图片描述
注:其中T是全局总epoch数,t是当前epoch数,p是最大个性化比率。

2.循环蒸馏

循环蒸馏部分示意图:
在这里插入图片描述

  主干神经网络分别解耦为个性化权重wi和共享权重w0,由于局部个性化和全局参数是用不同的分布数据学习的,这些参数的静态特性会出现分歧,从而导致性能下降。此外,在大多数先前的工作中,在局部监督目标的优化过程中,缺乏两部分之间的显式一致性正则化。为了解决这个问题,我们尝试在个性化联邦学习(PFL)中引入循环蒸馏,从而缩小本地权重和全局权重学习到的表示之间的差距。所提出的循环蒸馏的关键思想是在局部训练过程中在 wi 和 w0 之间施加一致性正则化。
  我们将由 wi, w0 参数化的子网写为 gwi , gw0 ,将由 (wi, w0) 组成的网络写为 gwi,w0。值得注意的是,gwi 旨在从 Di 学习个性化局部表示,而 gw0 旨在学习全局通用表示。对于每个输入样本 xi,我们分别从 gwi,w0 , gwi , gw0 收集预测 eyi, eyL i , eyG i 。总体预测(ye i)通过与实际标签yi来计算交叉熵损失(LCE)。循环蒸馏损失定义为:
在这里插入图片描述
  其中 KL(·,·) 表示 Kullback-Leibler (KL) 散度。它可以在 wi 和 w0 之间施加一致性正则化,引导 wi 和 w0 的预测相互对齐。(通过计算这两个 KL 散度项,可以确保对称性,即损失中考虑了两个方向上的一致性。这有助于在训练过程中引导 wi 和 w0 之间的预测结果相互对齐。
  因此,总体损失函数L是交叉熵损失和循环蒸馏损失的组合:
在这里插入图片描述
平衡系数(λ) 在此工作中设置为1。

3.个性化权重的时间平均移动

  为了稳定训练性能,本论文使用了一种用于个性化权重的时间平均移动策略。为了使本地权重更新在个性化通道wi上具有更平滑的训练动态,采用了指数移动平均(EMA)方案。使用上标l标记对应的本地epoch编号,那么在时刻t的wi的EMA更新为:
在这里插入图片描述

其中,wi′l 是来自方程(5总损失函数)的原始更新。
Wi l-1是上一个本地训练epoch的权重。
平滑系数βt 取决于当前的全局epoch编号,(采用了一个先逐渐上升后不变的策略),即:
在这里插入图片描述

其中,基础平滑系数β 被设置为0.5,而t0被设置为总联邦时期数的10%。
t<=t0时,平滑系数βt 随全局epoch增大而增大,以缓慢引进新的信息。
t>t0时,平滑系数βt 保持不变,保留一定的历史信息。

四、算法

在这里插入图片描述
具体流程如下:
在客户 i 处使用 CD2-pFed 进行本地培训。
输入:本地epoch编号 ηi
输出:wt
1:从中央服务器下载w0t-1
2:更新个性化比率p
3:for do l = 1, 2, · · · , ηi
来自客户端Di的批量数据样本
转发并计算交叉熵损失LCE
计算方程(4)中的循环蒸馏损失 LCD
更新权重
用方程(6)调整个性化权重 wil
4:结束
5:上传w0t到中央服务器
之后,中央服务器收集来自每个客户端的所有全局权重w0,并采用FedAvg对其进行聚合。

五、数据集与评估指标

数据集

  专注于图像分类任务,我们使用四个基准数据集来评估所提出的 CD2-pFed,即 CIFAR-10、CIFAR-100、FLICKR-AES,以及公共和私人组织学图像的组合,在本文中称为 HISTO-FED纸。
CIFAR-10包含总共60000张大小为32×32的彩色图像,分为10个类别,每个类别有5000张训练图像和1000张测试图像。我们专注于高度非独立同分布的设置,即特征为标签分布偏差。我们遵循之前的工作,将最多 s ∈ {2, 3, 4, 5, 8, 10} 类的图像分配给每个客户端。较高的 s 对应于较高的数据分布方差。例如,s = 10 是 IID 设置,而 s = 2 是最高的异构数据分割。对于CIFAR-10,我们设置客户端数量K = 10。
CIFAR-100包含每类500个训练图像和100个测试图像,总共100个类。与 CIFAR-10 类似,彩色图像的缩放比例为 32×32。我们设置客户端数量 K = 30,并为每个客户端分配最多 s = 40 个类 ,这也是非 IID(即标签分布倾斜)。
FLICKR-AES:许多文献都使用FLICKR-AES来评估个性化图像美学的表现。图像被随机分成 80% 用于训练,20% 用于测试。此外,REAL-CUR 被用作外部测试集,以评估现实世界个人照片排名背景下的全局模型表示。来自 14 个个人相册的图像,平均每个相册有 197 至 222 张图像,由一名用户收集和评分 [30]。由于审美评分的个人偏见,非独立同分布被表征为概念转变,导致非独立同分布的数据分布。我们使用 K = 30 个用户的子集作为客户端,与之前的工作中的设置相同。
HISTO-FED 是一个医学图像数据集,由公共和私人苏木精和伊红 (H&E) 染色的人类结直肠癌 (CRC) 和正常组织的组织学全切片图像组成。它们是由四个医疗中心策划的。我们设置客户数量 K = 3,其中每个客户都使用来自一个医疗中心的图像,其余中心用作外部测试集。客户端 1 和客户端 2 分别使用来自两个公共数据集 NCT-CRC-HE-100K、CRC-VALHE-7K 的幻灯片总数 N = 86 和 50 的子集。每张图片都有 7180 个图像块,这些图像块是从幻灯片中吐出的。客户端 3 和外部测试集分别有 7000 和 4000 个图像块,这些图像块是从幻灯片数量 N = 20 和 10 的私有数据集中整理的。每个图像都标记有九个类别之一。本研究涉及的所有图像均获得了适当的伦理批准。由于染色方差[12],客户端之间的图像是高度非独立同分布的,被描述为特征偏差。

评估指标

  我们在 CIFAR-10 和 CIFAR-100 上使用两个指标:
1.本地测试Top-1分类准确率(%)。我们准确地知道数据样本所属的客户端,因此我们可以选择特定的经过训练的本地模型进行预测。它评估模型个性化的性能。
2) 新测Top-1分类准确度(%)。我们不知道数据样本属于哪个客户端,因此我们采用所有本地模型的集合来得出平均预测,其中本地模型将上传到中央服务器。该指标衡量对未知数据的泛化能力。
3.外部测试Top-1分类准确率(%)。在FLICKR-AES和HISTO-FED上,我们又使用了一项指标,即外部测试Top-1分类准确率(%)。具体来说,除了本地或新的测试之外,我们还使用外部测试样本。因此,这些图像可能是从不同的分布中采样的,旨在验证全局模型表示的泛化。

超参数。在每个本地客户端,我们采用随机梯度下降优化器,其中 Nesterov 动量和权重衰减率分别设置为 0.9 和 5 × 10−4。 CIFAR-10 的本地历元数 ηi = 1,批量大小 b = 128;对于 CIFAR-100,ηi = 4,b = 128;对于 FLICK-AES 和 HISTO FED,ηi = 4 b = 4。总历元数 T 设置为 50。此外,在 CD2-pFed 中,我们在方程 (7)中设置 EMA α = 0.5 的最大平滑系数。公式(5)中损失函数平衡系数λ=1 ,公式(3)中,CIFAR-10/100 和 HISTO-FED 上 p = 0.5,FLICK-AES 上 p = 0.8 。

六、实验结果

  数据异构性的影响: 我们首先评估 CIFAR-10 在不同级别的数据异质性上的性能,通过 s 进行量化。如图 5 所示,在所有异质性程度(即 s)上,CD2-pFed 始终优于 LG-Fed 和 FedPer。此外,性能差距随着异质性而单调增加。当 s = 10 时,即在 IID 设置中,可实现几乎相同的测试精度。在本节的其余部分中,我们将重点关注大多数非 IID 设置。
在这里插入图片描述

  CIFAR-10 上的结果: 如下表所示,我们提出的 PFL 框架在最高程度的数据异质性(即 s = 2)上将主干网络显着提高了 31.83%。这一经验上的成功表明了通道明智集成的个性化有效性。此外,与最先进的分层个性化方案 [2, 22] 相比,我们的方法实现了最佳的本地和新的分类精度,这表明我们的模型学习了更强大的本地和全局表示。此外,新测试准确性的优越性表明,我们的方案还对个性化中未见过的数据实现了更高的泛化,这归因于它们在 FL 中发挥的个性化和共享权重的平等作用。
在这里插入图片描述
  CIFAR-100 的结果: 如表 2 所示,CD2-pFed 的本地测试准确率提高了 28.75%,显示了其对具有更丰富类别的本地数据集的模型个性化的有效性。同时,测试精度提高了 5.92,从而实现了对未见数据的概括。我们还优于 FedPer、LG-Fed 等分层个性化方法。
在这里插入图片描述
  FLICKR-AES 上的结果: 我们在FLICKR-AES上测试本地训练性能,由于本地客户端规模较小,很容易出现过拟合。在 FLICR-AES 中,标签分布是非独立同分布的,符合 FedPer 的理念。 FedPer 的表现略胜于 LGFED,显示了其顶层个性化在解决标签分布偏差方面的优势,而 LGFed 的表现较差。值得注意的是,LG-Fed 仅略微优于基线 FedAvg,这是由于标签分布中存在偏差,其中 LG-Fed 的个性化底层难以学习。表 3 总结了实证比较,其中我们的框架在本地和外部测试中均优于最先进的个性化方案。此外,CD2-pFed 可以显着降低测试方差,从而实现更稳定、更稳健的预测。总之,配备顶部和底部个性化的 CD2-pFed 在面对标签分布偏差时不会受到 LG-Fed 的不良影响。在这里插入图片描述

  HISTO-FED 上的结果: CD2-pFed 在四个客户端上的内部和外部测试结果始终优于基线,如表 4 所示。我们从内部验证中获得了比外部验证更高的改进,这表明我们的模型可以很好地个性化全局模型。这些实证结果表明,除了自然图像分类之外,CD2-pFed 在医学图像上联合个性化的稳健性和成功性。
在这里插入图片描述
实验结论: 对四个数据集(以不同的非 IID 设置为特征)的综合实验证实,我们的 CD2-pFed 是持续实现最先进结果的唯一方法。尽管在存在特征偏差的情况下,LG-Fed 的性能优于 FedAvg,而在存在标签分布偏差的情况下,FedPer 的性能更好,但当交换非 IID 设置时,它们的性能会急剧下降。假设 LG-Fed 个性化底层以更好地从高度异构的图像中学习,而 FedPer 个性化顶层以区分不平衡样本。我们的 CD2-pFed 包含低级和高级个性化,可以减少个性化决策对先验知识的依赖。

消融分析

  我们所提出的 CD2-pFed 由三个功能组件组成,以协助通道解耦,即渐进个性化比率增量方案(LI)、个性化权重的时间平均移动(TA)和循环蒸馏(CD)。为了测试每个方案的有效性,我们在 CIFAR-10 上进行了 s = 2 分割的消融研究。如表 5 所示,我们可以观察到:
  1.对于所有组件,CD2-pFed 都实现了最佳性能,证明了集成 LI + TA + CD 三种方案的有效性;
  2.CD取得的进步最高,TA次之,LI最少;
  3.LI和TA可以稳定训练,导致标准偏差更小。
在这里插入图片描述
  我们还在图 6 中可视化了非 IID CIFAR-10 的训练性能,其中与现有的逐层个性化方法相比,我们的 CD2-pFed 实现了更快的收敛,这在联合过程中需要更少的通信轮次。
在这里插入图片描述

局限性和结论

  1.在本文中,我们提出 CD2-pFed 来垂直解耦全局模型中的通道以实现个性化。我们的垂直解耦方法可以个性化局部模型,并指导学习高级和低级特征表示。
  2.我们还提出循环蒸馏来实施一致性正则化并防止个性化中的权重发散。然而,循环蒸馏目前是通过使用软预测来设计的,这仅限于分类任务。
  3.为了稳定训练过程,我们利用个性化权重的时间平均移动和个性化比率的渐进增加方案。

  • 18
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值