会议名称:2023 IEEE Symposium on Security and Privacy (SP)
中文译名:AI-Guardian:利用后门防御对抗攻击
阅读原因:网安相关,方班需要
本文主要介绍了一种名为AI-Guardian的框架,旨在通过神经网络后门机制抵御对抗攻击。文章首先概述了深度学习在实际应用中面临的安全威胁,特别是对抗攻击的问题,并强调了研究有效防御策略的重要性。接着,文章提出了AI-Guardian框架,该框架在模型训练阶段注入后门样本,并在预测阶段利用后门处理和标签双射关系来返回正确的预测结果。通过与现有防御策略的比较,AI-Guardian显示出更好的防御效果、更小的时间开销,并且对模型原有表现的影响较小。最后,文章通过一系列实验验证了AI-Guardian的有效性,包括攻击成功率、模型预测时间开销、模型训练时间开销和模型准确率的影响评估。
1.研究背景和问题:
(1)实际应用场景和问题提出
深度学习对输入数据敏感,很容易受到对抗攻击,存在严重的安全问题。
对抗攻击(Adversarial Attack)是指攻击者通过故意篡改输入数据,使机器学习模型产生错误预测的攻击方式。这种攻击利用了深度学习模型对输入数据的敏感性,通过在原始数据中添加细微的扰动或噪声,使得这些经过修改的数据(称为对抗样本)被模型误分类。对抗攻击可以在多种应用场景中发生,包括图像识别、语音识别和自然语言处理等。由于对抗样本在人类看来与原始数据几乎无异,但模型却会做出截然不同的错误判断,因此对抗攻击对AI系统的安全性构成了严重威胁。
现有的对抗攻击防御策略存在效果有限、影响模型原有表现等问题,不能彻底抵御对抗攻击。
(2)问题的研究意义
对抗攻击本质就是欺骗AI模型,对AI系统的正常运转造成严重干扰。一旦发生在某些关键领域,如自动驾驶、智能医疗,将带来严重安全隐患,甚至造成严重安全事故。随着深度学习技术越来越广泛的应用,研究合适的对抗攻击防御策略刻不容缓。
(3)问题的研究现状
现有对抗攻击防御策略主要分为两大类:离线防御策略和在线防御策略。
-
离线防御策略:这类策略主要在模型训练阶段实施,旨在提高模型对对抗样本的鲁棒性。典型的方法包括: