[paper]Distillation as a Defense to Adversarial Perturbations against Deep Neural Networks

本文提出了一种名为防御性蒸馏的算法,旨在提升深度神经网络对抗对抗样本的鲁棒性,同时保持模型的准确性。通过利用蒸馏过程中的知识,减少网络梯度的幅度,降低对抗样本的生成可能性。实验表明,随着蒸馏温度的增加,模型对对抗攻击的抵抗力增强,虽然可能轻微牺牲模型的准确率。
摘要由CSDN通过智能技术生成

本文提出了一个防御算法,在不改变深度神经网络的结构并且在尽可能小的影响模型准确率的前提下能够有效地抵御对抗样本的攻击。

We use the knowledge extracted during distillation to reduce the amplitude of network gradients exploited by adversaries to craft adversarial samples. If adversarial gradients are high, crafting adversarial samples becomes easier because small perturbations will induce high DNN output variations. To defend against such perturbations, one must therefore reduce variations around the input, and consequently the amplitude of adversarial gradients.

通过利用蒸馏过程中提取的知识来减小攻击者利用梯度生成对抗样本的幅度。 如果梯度较高,则生成对抗样本会更容易,因为较小的扰动会引起DNN较高的输出方差。 为了抵御这种干扰,必须减少输入的方差,从而减少梯度的幅度。

本文做出了以下贡献:

  1. 阐明了对抗性样本DNN防御设计的要求。 这些准则强调了防御性鲁棒性,输出准确性和DNN性能之间的内在联系。
  2. 引入了防御性蒸馏,这是一种基于DNN的分类器模型的训练程序,该模型对扰动更鲁棒。 蒸馏提取有关训练点的其他知识,作为DNN生成的类概率向量,并将其反馈到训练过程中。 这与之前蒸馏的用途大相径庭。之前蒸馏的目的是减少DNN架构以提高计算性能,并将获得的知识反馈给原始模型。
  3. 防御性蒸馏将蒸馏作为一种安全对策。 通过降低输入扰动的敏感性生成更平滑的分类器模型,这些更平滑的DNN分类器对对抗性样本更具鲁棒性,并且提升了泛化性。
  4. 对蒸馏参数空间的研究表明,正确的参数化可以大幅度降低DNN对输入扰动的敏感性。

在这里插入图片描述

理论上来讲,如果攻击者要想成功地生成对抗样例,前提是他要深入的了解整个DNN的架构, 而攻击者想要获取一个 DNN 模型的架构通常是比较困难的。但实际上,对于一个经验丰富的攻击者来讲,即使他不熟悉目标攻击模型 F 的架构,他一样也能攻击成功:

  1. 训练一个DNN模型 F’,无限地近似目标攻击模型 F
  2. 基于训练所得的模型 F’ 来生成对抗样例

在这篇论文中,作者假设攻击者可以接触到模型 F, 即白盒攻击。
模型F的架构如图所示,由输入层、隐含层、输出层、 softmax层构成。
一般地,我们给DNN输入层一个输入,输入维度为 M,通过隐含层的记忆单元,我们将模型从训练样本中学习到的知识编码到权重向量中,并通过输出层输出对应类别的概率分布向量。
然后采用 softmax 层将原始输出转换成对应的概率分布。softmax 函数的形式如下。
在这里插入图片描述
其中,输出层的维度为 N N N Z i ( X ) Z_{i}(X) Zi(X) 表示隐含层最后一层输出(原始输出)类别 i i i 对应的输出分量。 T T T(Temperature)是训练过程控制的一个重要参数,本文中称为蒸馏温度。

使用类别概率代替硬标签的好处很明显,因为概率会编码有关每个类的相关信息,而不是简单地提供正确类别。 并且可以从这个熵中推导出相关类别的信息。
在这里插入图片描述
对抗样例生成框架如图所示,分为两个步骤:

  1. 方向敏感性估计
  2. 扰动选择

方向敏感性估计:
攻击者会评估DNN模型 F 对 样本 X X X

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值