动机
对抗训练(AT)是提高深度神经网络对抗攻击鲁棒性的有效手段。但是,AT往往在提升鲁棒性的同时,降低了识别干净样本的能力。本文为了同时提高小模型的干净与鲁棒精度,提出多模型对抗鲁棒蒸馏(MTARD)来指导小模型的对抗训练过程。此外,本文设计了一个动态的训练算法来平衡鲁棒教师和干净教师模型之间的影响。
背景介绍
对抗鲁棒蒸馏(ARD)用于通过从大型鲁棒模型中提取知识来提高小型模型的鲁棒性,将大型模型视为教师,将小型模型视为学生。虽然这样能够提高鲁棒性,但与常规训练的性能相比,干净精度仍不理想。
本文提出的方法通过对抗性蒸馏应用多个教师模型来提高学生模型的干净性和鲁棒性精度。同时,设计了一种基于自适应归一化损失的联合训练算法,以平衡鲁棒教师模型和干净教师模型对学生模型的影响,这是由历史训练信息动态确定的。
具体方法
在知识蒸馏中,希望学生能够从鲁棒教师那里学习鲁棒性,并从干净教师那里学习识别干净样本的能力。为了产生两个教师的软标签,干净教师的输入是来自原始数据集的初始干净样本。相反,鲁棒教师的输入是由学生模型在内部最大化中产生的对抗样本。学生输入分为干净的例子和对抗性的例子。具体的流程如下图所示:
训练损失
极大极小优化框架
干净样本和对抗样本的输出将由对抗软标签和干净软标签指导,以监督外部最小化中的学生模型训练。基本MTARD的极大极小优化框架定义如下:
自适应归一化损失
在实际层面上,MTARD 中使用的自适应归一化损失(ANL)可以在整个训练周期中抑制更强的教师的快速增长。如果一个教师在一段时间内与另一个教师相比过度指导学生,自适应归一化损失可以通过控制损失权重动态地抑制这个教师的教学能力,而另一个教师的能力在接下来的一段时间内会变得更强。如果注意到原来的强老师变弱了,它会让原来的强教师再次变强。最后,学生可以从两个教师那里学习得很好,获得干净和鲁棒的能力。在数学层面上,在时间t最终用于学生模型更新的MTARD中的总损失可以表示为Ltotal(t),其可以用公式表示如下:
实验结果
1
教师模型精度
2
白盒攻击
3
黑盒攻击
原文链接:多教师对抗鲁棒蒸馏