个人阅读笔记,如有错误欢迎指出
会议:ICML 2022 [2206.10341v1] Neurotoxin: Durable Backdoors in Federated Learning (arxiv.org)
问题:
联邦学习中的后门攻击都不持久,在停止投毒后攻击影响锐减
创新:
选择在学习过程中几乎没有变化的参数进行攻击,以避免由于融合导致攻击下降
攻击影响消失原因:
服务器融合恶意模型与良性模型的过程中,中毒的神经元会与其他良性神经元的值中和,并且在多轮迭代过程中会一直降低攻击的影响,最终使得攻击影响消失。
神经毒素:
攻击基础:利用了随机梯度下降(SGD)中梯度的稀疏特性。经验表明,聚集的良性梯度的大部分范数包含在极少数坐标中。
攻击方法:确保攻击只更新良性模型不太可能更新的坐标,我们就可以在模型中维护后门并创建更强大的攻击。
为什么有效:依赖于经验观察,即随机梯度的大部分范数位于少量的重要坐标中。神经毒素用 top-k% 启发式方法识别这些重要坐标并避免影响它们。即,避免最有可能从良性设备接收大量更新的方向会减少后门被擦除的机会。
算法流程:
攻击者下载前一轮的模型,并用此近似下一轮的良好的模型
攻击者计算良性梯度的 比较重要的top-K%个坐标并将其设置为约束集。
攻击者在中毒数据集上计算梯度更新,并将该梯度投影到约束集,即观察到的良性梯度的bottom−k% 坐标。
PGD 逼近位于 bottom−k %坐标跨度内的最优解。
实验:
攻击细节:攻击者控制了少量受感染的设备,并通过将中毒梯度上传到服务器来实施攻击。使用固定频率攻击模型进行少发攻击。
少量攻击:攻击者仅参加 AttackNum回合,以量化攻击者的实力。
固定频率攻击:攻击者在他们参与的每个迭代中只控制一个设备。
服务器防御:范数裁剪防御。
后门持久性指标:从攻击者攻击后的下一轮数开始计算,结果在投毒数据集上的精度小于一个精度阈值停止,之间的轮数为衡量攻击持久性的指标。
实验设置:
实验结果:
提高了攻击持久性:只要 k 很小,神经毒素相比于基线实验增加了攻击的持久性。当减少 k 时,寿命会提高,直到约束优化的难度超过增加的持久性
使硬标签攻击更容易,尤其是在针对边缘数据集的攻击中表现依然超过基线。
单字触发器攻击。
针对差分隐私具有鲁棒性
增强了SVD-based攻击方法
总结:
方法简单便于实现,和其他攻击方法适配度高。
不知道是否能在Deepsight方法下攻击成功