READ-2320 Federated Unlearning with Knowledge Distillation
论文名称 | Federated Unlearning with Knowledge Distillation |
---|---|
作者 | Chen Wu, Sencun Zhu, Prasenjit Mitra |
来源 | arXiv 2022 |
领域 | Machine Learning - Federal learning - Security - Defence – Backdoor attack |
问题 | 已有的联邦消除方法增加了时间和能量的损耗 |
方法 | 通过减去恶意客户端的累计历史更新,并使用知识蒸馏的方法恢复模型的性能 |
创新 | 基于知识蒸馏的联邦遗忘方法 |
阅读记录
一、联邦遗忘
- 联邦消除的挑战
(1)增量学习过程:由于FL是一个迭代的过程,一旦要去除某一轮客户端的数据,之后的全局模型都会变得非法
(2)随机训练过程:由于每轮参与通信的客户端是随机的,并且每个客户端在训练过程中也存在许多随机性,任意一个微小的扰动都会导致蝴蝶效应,使得FL训练过程难以控制,或导致全局模型每次都收敛到不同的局部极小值
(3)限制对数据集的访问:服务器无法访问客户端的数据,并且在训练完毕后客户端为节省存储空间,数据可能会被删除 - 知识蒸馏的使用:将旧的全局模型作为教师训练遗忘模型
(1)在服务器上使用知识蒸馏且不需要标记数据集,因此没有客户端的时间和能量损耗,也没有网络故障
(2)由于没有触发器,后门特征无法从教师模型转移到消除模型上
(3)知识蒸馏防止模型过拟合,有更好的泛化性 - 去除历史更新
(1)最终模型与初始模型的关系:初始模型+每一轮模型更新的累加=最终模型
(2)假设共有N个客户端,想要移除第N个客户端的贡献,则每轮更新可以转变为:
(3)去除方法
- 方法一:假设第t轮只有N-1个客户端参与
①聚合全局更新
由于FL的增量学习的性质,该方法不能直接计算累计更新以重构消除模型
②对每轮全局模型进行修正
ε:对全局模型的修正,随着通信轮数增加而增加,消除客户端数据的迭代影响。但是由于是定值,即使客户端在某轮通信中贡献较小,也会对全局模型造成较大的改变,并且该改变将在后续迭代中放大 - 方法二:使用懒学习消除客户端影响,假设目标客户端仍然参与训练,但是模型更新为0
①聚合全局更新
②计算最终的消除模型
消除模型=原始最终模型-目标客户端的平均更新值+矫正过程偏差
-
使用知识蒸馏进行补救
(1)问题:如何在不重新训练模型的情况下,计算补救偏差ε
(2)思想:知识蒸馏在训练过程中获得的知识不仅被编码在权重中,还可以从模型的类概率中反映出来,可以提高模型的泛化性和鲁棒性
(3)方法
①将原始全局模型作为教师模型,将其输出作为label
②服务器使用无标签的数据训练消除模型,并纠正补救偏差ε。若有带标签的数据,可以结合软标签和硬标签进行训练,且为l获得更多知识,需要给硬标签更少的权重
T:temperature,T越大,概率分布越平均
z:输出层的Logit
含义:原始全局模型计算软分类 -
伪代码
总结
相比FedEraser,本文先在全局模型上减去中毒更新,再利用知识蒸馏恢复模型性能,减少了额外的通信量,但是对服务器的存储量有较高的要求。未来可研究的方向包括:
1.在训练过程中的进行蒸馏
2.没有任何数据集的蒸馏