Federated Unlearning with Knowledge Distillation 概述

Abstract

提出了一种新的联邦学习方法,通过从模型中减去累积的历史更新来消除客户端的贡献,并利用知识蒸馏方法来恢复模型的性能,而不需要使用来自客户端的任何数据。该方法对神经网络的类型没有任何限制,也不依赖于用户的参与。

Introduction

由于 right to be forgotten (被遗忘法)和一些有敌意的用户使用过时和低质量的数据,或者进行投毒攻击,那么去遗忘指定用户的贡献尤为重要。可以显著提高FL系统的安全性和可靠性。

为了提高FL的效率,将更多的计算放在服务器端总是比放在客户端更好,因为服务器通常比客户端具有更大的计算能力。减少服务器和客户端之间的迭代次数也是至关重要的,因为通信花费了大量的时间和精力,特别是对于DNN。因此,设计一个有效的联邦去学习方法也应该遵循这两个原则。

由于FL系统中存在太多的随机过程,即使重新训练模型每次也可能产生不同的结果,因此评估遗忘任务的有效性并不容易。为了直观地评估遗忘效应,本文引入了后门攻击在客户端的更新中。

后门攻击是对FL系统最强大的攻击之一,它不影响全局模型在规则输入下的性能,当被后门模式的特定输入触发时,就会歪曲预测结果这一特性使其成为衡量遗忘效果的理想评价方法。

本篇论文其思想是擦除攻击者的历史参数更新,并通过知识蒸馏的方法恢复损害。具体来说,使用旧的全局模型作为教师来训练遗忘模型。首先,知识提炼训练完全在服务器端进行,不需要标注数据集,因此不需要客户端的时间和能量开销,也不需要网络传输。其次,后门特征不会从教师模型转移到遗忘模型,因为在没有后门模式出现的情况下,这些特征不会激活。最后,提取可防止模型过于紧密地拟合数据,并有助于更好地泛化训练点周围的数据。

Related Work

Cao和Yang的工作引入了“machine unlearning”一词。他们通过将学习算法转换为求和形式,为了忘记训练数据样本,它们更新求和的一小部分,因此它比从头再训练渐近地更快。然而,该算法仅适用于可转换为求和形式的传统机器学习方法。

Bourtoule等人引入了SISA训练来减少去学习的计算消耗,但是这种框架用户数据是分片并且有策略的去限制训练过程中数据点的影响。Izzo提出了一个差不多的数据删除方法叫做projective residual update(PRU),该计算成本是与特征维度成线性,不依赖于数据大小。

Liu等人研究了联邦学习场景中的遗忘问题。他们的方法是通过FL中的再训练过程来调整联邦客户端的历史参数更新,并重构去学习模型。它依赖于客户端的参与(使用它们的历史数据集),并且需要客户端和服务器之间的额外通信回合。(这说明本文方法不需要在删除阶段不需要客户端参与,不需要额外通信

3 Problem Definition

3.2 Challenges in Federated Unlearning

增量学习过程模型的更新是一个增量过程,其中任何更新都依赖于所有先前的更新。例如,如果在回合T从全局模型聚合过程中移除来自客户端k的更新∆ Mk T,则全局模型MT +1将改变到一个新的模型M T +1。由于每个客户端i最初基于全局模型MT +1计算其本地更新∆ Mi T +1,因此其所有后续更新∆ Mi t(t ≥ T +1)在移除客户端k之后变为无效。在这种情况下,如果T = 1,即,在FL过程的第一轮中,可能需要从头开始重新训练模型,其中所有客户端都参与,并且在以后的更新中重新计算相应的改变。

4 Unlearning Method

 这种方法要求服务器保存来自每个提供服务的客户端的参数更新历史,并拥有一些额外的外包的未标记数据。(我认为这是个巨大的缺点,因为需要耗费大量的资源来保存)

4.1 Erase Historical Parameter Updates

如果使用∆Mt来表示第t轮的更新,最终的全局模型MF可以被视为初始模型权重M1和从第1轮到第F − 1轮的全局模型更新的组合。

 假设每一轮都有N个客户端参与FL训练,并且客户端N是想要从全局模型中去除的目标客户端。此时,可以将问题简化为在每个回合t从全局模型更新∆Mt中去除目标客户端N的贡献∆MN t。

有两种方法计算第t轮的新全局模型更新∆M t。第一个假设是在第t轮只有N-1个客户参与FL。这样,新的全局模型在第t轮更新∆M t,变为下式。(把N*∆M t展开就可以得到左式)

然而,由于FL的增量学习特性,不能直接累积新的更新来重构去学习模型,如前一节中所讨论的。对全局模型Mt的任何更新将导致对随后发生的所有模型更新的更新有影响。因此,来表示在每一轮t时对全局模型的必要修正

 在更新全局模型之后,偏差将随着更多的训练回合而增加。因此,上述遗忘规则具有以下缺点:当目标客户端N在回合t对模型贡献很小时(例如,∆MN t ≈ 0),则全局模型更新∆Mt仍将通过乘以因子N/N−1而发生很大变化。(我不是很懂为什么N/N-1会造成很大变化)

为了缓解这一问题,论文提出使用懒惰学习策略来消除目标客户端N的影响。具体地说,假设客户端N仍然参与训练过程,但是对于所有回合t ∈ [1,F − 1],他的更新

(在第一个等号右边的式子中设为0)

最终全局模型的去学习结果

 现在,遗忘模型更新规则变得非常简单易懂。只需要从最终全局模型MF中减去来自目标客户端N的所有历史平均更新。然后,利用模糊逻辑的增量学习特性,对该过程中产生的偏差进行了修正。

 4.2 Remedy with Knowledge Distillation

我们使用由原始全局模型MF产生的该软分类预测概率来标记数据集。然后用具有软标签(具有高温T)的该数据集训练偏斜遗忘模型。在蒸馏训练之后,温度将被设置回1,因此去学习模型可以在测试时间内产生更多的离散类预测概率。

 

5 Experiments

使用三个数据集的不同模型结构对所提出的去学习方法进行了实证评估。中心结果表明,我们的去学习策略能够有效地去除目标客户端(攻击者)对全局模型的贡献。此外,对模型的损坏可以通过纯粹在服务器端的蒸馏训练过程来快速恢复

在MNIST数据集上给出了训练过程和相应的减影去学习过程。实线代表训练过程中的测试准确率和后门攻击成功率。虚线表示在仅仅减去目标历史参数更新之后的遗忘模型的测试精度和后门攻击成功率。 (意思就是减去更新之后,会有损坏,因为虚绿线在攻击率为0的情况下,并没有提高正确率,反而有下降趋势。)

利用MNIST数据集研究了知识提取训练过程中去学习模型的性能。蓝线代表损失的变化,原始模型的损失除以去学习模型的损失。这意味着使用更接近1的值可以更好地恢复模型。

攻击者对全局模型的影响在知识提炼训练过程后不会传递到去学习模型。原因在于蒸馏训练方法不使用来自目标客户端(攻击者)的任何数据,因此原始模型中的后门没有被触发,从而不会被去学习模型学习。这也证明了在被遗忘权的情况下对客户端的隐私保护。因为该贡献的影响也会从这个新的全局模型中去除。

 

Training这一列代表的是原始模型,UL-Subtraction代表的是仅仅减去更新参数的一列,UL-Distillation代表的是在 UL-Subtraction上蒸馏。Post-Training代表的是UL-Distillation放回没有目标客户端的参与下继续训练,可以提升多少。“Re-Training”栏是广泛使用的遗忘问题的黄金标准。

可以看出UL-Distillation的正确率达到了从头训练差不多的效果。

为什么在CIFAR-10上依旧有后门攻击成功率。这是由模型的预测误差引起的(检验准确率仅在80%左右)。换句话说,原始图像(没有后门模式)也会被误分类为后门目标标签。

### 回答1: "Federated learning with non-iid data" 的含义是:在非独立同分布数据(non-iid data)的情况下进行联邦学习。联邦学习是一种分布式学习的方法,其特点是模型的训练和更新是在本地设备上进行,而不是在中心服务器上进行。而非独立同分布数据则意味着不同设备之间的数据具有不同的分布和特征,这会对联邦学习的效果造成挑战。因此,在进行联邦学习时,需要考虑如何处理这种情况,以提高模型的准确性和鲁棒性。 ### 回答2: 联邦学习是近年来备受关注的一种机器学习方法,其核心精神是通过多个客户端设备在本地进行数据处理和训练模型,不必将原始数据汇集到一起,避免了隐私泄露和数据传输带来的风险。但实际上,大多数现实场景中的数据并不是独立同分布的(non-iid),多个客户端设备所在的数据分布也极有可能不同,如何在保持原有联邦学习思路的基础上应对非iid数据,也成为了当前研究的热门问题。 目前,学界和产业界对非iid联邦学习的解决方案尝试有很多,其中一些典型的方法包括: 一、联邦聚类(Federated Clustering)。该方法利用监督和非监督的数据聚类模型,对处理不同数据分布的客户端设备进行分类,形成若干个数据分布相似的组,然后在每个组中进行联合学习,对每个组得到的模型结果进行合并。 二、联邦迁移学习(Federated Transfer Learning)。该方法通过在源域数据上进行模型训练和参数更新,再通过一定的方法将已训练的模型迁移到目标域中进行更新和优化,从而使得目标域数据更好地适应模型。 三、混合学习(Federated Hybrid Learning)。该方法结合了联邦学习和分层模型的想法,将多个客户端设备的数据层级化,在相同维度的数据上进行联邦学习,但不同层级内的数据各自训练特定的模型。 以上这些方法都对非iid联邦学习的问题提供了一定的思路和解决方案,在应用场景中也得到了初步的应用。但是,不同于iid数据的不同分布、语义、类别之间的差异使得非iid联邦学习更具挑战性,其数据分布、协作策略、学习算法等方面的问题都需要进一步研究和提高。未来,我们需要不断探索更好、更高效、更准确的非iid联邦学习的方法和方案,应用到各个行业领域提高数据的利用效率和隐私保护水平。 ### 回答3: 联邦学习是一种先进的机器学习技术,它允许多个参与方共同训练一个模型,而不需要将原始数据集集中在单个位置。这种分布式学习的方式可以最大程度地保护用户的数据隐私和安全。 然而,在实际应用中,有时候我们会遇到一些具有不同的分布性质的非IID数据集。因为数据的不均匀和异构性质,使得对于分布在不同的机器上的数据进行联合训练变得更加困难。这种情况也称为不相同的数据偏移或数据漂移。不同分布性质的数据会导致训练模型的性能下降,因为模型无法对不同的数据进行适应。这也使得联合学习更具挑战性。 为了解决这个问题,可以对数据进行采样和重新加权,以便在融合时使每个本地模型对于不同的数据立场相对均衡。一种基于采样的方案是Federated Averaging with Local Adapation(FALA),它是一种高效的算法,它通过对于权值进行本地的调整,减少了由于数据偏移带来的下降的性能。此外,类别抽样和异质性采样也可以用来处理iid 的数据集之间的不相同。在数据偏移情况下,这需要更多的小样本和多轮次迭代。 另一种方法是加入对模型的个性化贡献,即在联合优化时分配不同的权重给本地模型或者对于不同的参与方使用不同的模型。例如,对于基于 神经网络的模型,可以采用逻辑斯蒂回归模型或者线性模型,以提高对于多样性的应对能力。 总而言之,对于不同的非IID数据,需要在联合训练时采用合适的方案,以克服分布不均带来的挑战并获得更好的结果。需要根据不同的实际情况选择最佳的方法,以满足不同的需求。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值