《论文阅读：Backdoor Attacks Against Dataset Distillation》

volcanical

于 2023-12-29 15:56:55 发布

阅读量882

点赞数 12

分类专栏：联邦学习文章标签：论文阅读

本文链接：https://blog.csdn.net/huoshanshaohui/article/details/134162543

版权

联邦学习专栏收录该内容

18 篇文章 4 订阅

订阅专栏

数据浓缩下的后门攻击

1. 摘要

数据集蒸馏已成为训练机器学习模型时提高数据效率的一项重要技术。它将大型数据集的知识封装到较小的综合数据集中。在这个较小的蒸馏数据集上训练的模型可以获得与在原始训练数据集上训练的模型相当的性能。然而，现有的数据集蒸馏技术主要旨在实现资源利用效率和模型效用之间的最佳权衡。由此产生的安全风险尚未得到探讨。这项研究对图像域中的数据集蒸馏模型所蒸馏的数据进行训练的模型进行了第一次后门攻击。具体来说，我们在蒸馏过程中而不是在执行所有先前攻击的模型训练阶段将触发器注入到合成数据中。我们提出两种类型的后门攻击，即 NAIVEATTACK 和 DOORPING。
NAIVEATTACK 只是在初始蒸馏阶段向原始数据添加触发器，而 DOORPING 在整个蒸馏过程中迭代更新触发器。我们对多个数据集、架构和数据集蒸馏技术进行了广泛的评估。实证评估表明，NAIVEATTACK 在某些情况下取得了不错的攻击成功率（ASR）分数，而 DOORPING 在所有情况下都达到了较高的 ASR 分数（接近 1.0）。此外，我们进行了全面的消融研究，以分析可能影响攻击性能的因素。最后，我们评估了针对后门攻击的多种防御机制，并表明我们的攻击实际上可以绕过这些防御机制。