DVERGE:通过“缺陷”多样化构建鲁棒性集成模型

DVERGE是一种新的方法,通过提取和多样化深度学习模型的对抗性弱点,提高集成模型对对抗性攻击的鲁棒性,同时保持高准确性。它通过度量和最大化子模型之间的对抗性特征差异来降低攻击的可传递性,从而在不牺牲清洁数据准确性的前提下,显著提升模型的黑盒传输攻击防御能力。
摘要由CSDN通过智能技术生成

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!

最新研究表明,用于图像识别任务的卷积神经网络往往表现出一致的“对抗性缺陷”:对抗攻击算法可以生成很小的输入噪声误导这些模型,并且同一对抗噪声往往可以同时误导在同一数据集上训练出的不同模型,即在模型间“迁移”。

本文提出利用集成模型提升深度学习鲁棒性的DVERGE方法。我们通过提取集合模型的子模型学到的“非鲁棒特征”确定其缺陷所在,并进一步通过多样化子模型的缺陷使其面对对抗性噪声输出不同的结果。这一新颖的多样性描述与优化方式使DVERGE得到了超出其他集成学习方法的迁移攻击鲁棒性。

杨幻睿:本科毕业于清华大学电子工程系,目前是美国杜克大学电子与计算机工程系博士四年级在读学生,师从李海老师和陈怡然老师。杨幻睿的主要研究方向为利用稀疏、量化等方式压缩神经网络模型提升运行效率,以及评估并增强深度学习模型的鲁棒性,以期得到即高效又鲁棒的适用于部署在现实世界中的深度学习模型。

一、 深度学习模型的鲁棒性缺失

图1 对抗攻击样例

对抗性攻击的研究使人对卷积神经网络的鲁棒性表示怀疑,这些攻击通常称为对抗性示例,对抗性示例中包括经过精心设计,人类所无法感知的输入扰动,但会引发CNN模型中引发错误分类。如上图所示,原图可以被正确识别为熊猫,而在增加一个随机噪声后,深度学习模型就把上图识别为长臂猿,而人类对俩个图均可以正常识别。

而类似的对抗性攻击如何是实在现实世界的应用中的?先前有研究证明了对抗性示例在CNN模型上有可移植性(transferability),其中针对任意模型生成的对抗性示例很大概率误导使用相同数据集训练的其他未指定的深度学习模型。

先前研究推测标准图像分类数据集中存在鲁棒和非鲁棒特征。人们可能会通过“对人类有意义的”鲁棒特征来理解图像,而这些特征通常对较小的附加噪声不敏感,而深度学习模型更倾向于学习非鲁棒特征。非鲁棒特征与输出标签高度相关,有助于提高模型精度,但在视觉上没有意义,并且对噪音敏感。对非鲁棒特征的这种依赖会导致对抗性漏洞(adversarial vulnerability),而对抗性示例会利用该漏洞来误导CNN模型。此外经验表明,在同一数据集上独立训练的CNN模型倾向于捕获相似的非鲁棒特征。

 

二、目前针对对抗性攻击的一些方法

2.1 对抗学习

目前大部分研究使用对抗训练提高CNN模型对抗攻击的鲁棒性。对抗训练可在每个训练步骤中将在线生成的对抗示例对自身的CNN模型损失降至最低。

对抗攻击通常会在某种约束S的作用下,将扰动项加到原始输入x上,以形成对抗示例xadv=x+δ,攻击目标是在输入xadv上最大化CNN模型输出与标签y的差异,记为Lθ攻击的目标可表示为xadv=x+argmaxδ∈SLθ(x+δ,y)。约束S用来保证对抗示例与原始输入在视觉上无法区分ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值