Interpolated Adversarial Training: Achieving Robust Neural Networks without Sacricing Too Much Accuracy
发表在 ACM Workshop on Artificial Intelligence and Security 2019
成功地提高adversarial robustness的方法往往极大地伤害了在未扰动数据上的泛化表现。
需要在不牺牲太多准确率的情况下提升adversarial robustness
很多防御方法是依靠于混淆梯度 obfuscated gradients 的错觉, 对抗训练依然有效却极大地伤害了在未扰动数据上的泛化表现。
(待考证,是否还存在不依靠混淆梯度又不影响泛化的其他方法)
(混淆梯度的意义,是否存在价值?最简易有效的混淆梯度方法是哪一种?)
相关工作
测试误差和对抗鲁棒性之间的博弈
Adversarial Training Can Hurt Generalization.
Robustness May Be at Odds with Accuracy.
(一个鲁棒的分类器 和 一个非鲁棒的分类器 之间的 gap 是否能被解释和填满?)
更好的算法?更好的模型架构?
NAS Intriguing Properties of Adversarial Examples 强化学习
Interpolated Adversarial Training,IAT
trains on interpolations of adversarial examples along with interpolations of unperturbed examples.
The reasons why IAT helps to improve the standard test accuracy
1.增加训练集大小
2.信息压缩
解释的比较一般
实验
在不影响adversarial robustness的情况下提高了test error,和标题不太符合。。。