[论文精读]AI-Guardian: Defeating Adversarial Attacks using Backdoors

0x211

已于 2024-09-27 11:13:47 修改

阅读量2.6k

点赞数 35

分类专栏：论文精读文章标签：人工智能

于 2024-09-27 10:58:53 首次发布

本文链接：https://blog.csdn.net/m0_52911108/article/details/142586993

版权

会议名称：2023 IEEE Symposium on Security and Privacy (SP)

发布链接：AI-Guardian: Defeating Adversarial Attacks using Backdoors | IEEE Conference Publication | IEEE Xplore

中文译名：AI-Guardian:利用后门防御对抗攻击

阅读原因：网安相关，方班需要

本文主要介绍了一种名为AI-Guardian的框架，旨在通过神经网络后门机制抵御对抗攻击。文章首先概述了深度学习在实际应用中面临的安全威胁，特别是对抗攻击的问题，并强调了研究有效防御策略的重要性。接着，文章提出了AI-Guardian框架，该框架在模型训练阶段注入后门样本，并在预测阶段利用后门处理和标签双射关系来返回正确的预测结果。通过与现有防御策略的比较，AI-Guardian显示出更好的防御效果、更小的时间开销，并且对模型原有表现的影响较小。最后，文章通过一系列实验验证了AI-Guardian的有效性，包括攻击成功率、模型预测时间开销、模型训练时间开销和模型准确率的影响评估。

1.研究背景和问题：

（1）实际应用场景和问题提出

深度学习对输入数据敏感，很容易受到对抗攻击，存在严重的安全问题。
对抗攻击（Adversarial Attack）是指攻击者通过故意篡改输入数据，使机器学习模型产生错误预测的攻击方式。这种攻击利用了深度学习模型对输入数据的敏感性，通过在原始数据中添加细微的扰动或噪声，使得这些经过修改的数据（称为对抗样本）被模型误分类。对抗攻击可以在多种应用场景中发生，包括图像识别、语音识别和自然语言处理等。由于对抗样本在人类看来与原始数据几乎无异，但模型却会做出截然不同的错误判断，因此对抗攻击对AI系统的安全性构成了严重威胁。
现有的对抗攻击防御策略存在效果有限、影响模型原有表现等问题，不能彻底抵御对抗攻击。