论文信息
题目:Adversarial Training With Anti-Adversaries
基于反对抗样本的对抗训练
作者:Xiaoling Zhou, Ou Wu, Nan Yang
源码链接:
论文创新点
- 首次结合不同扰动范围的对抗与反对抗样本训练,理论分析其在多种场景下对模型的影响。
- 提出新目标函数,用元学习和强化学习确定样本扰动策略。
- 从正则化解释组合策略,实验证明方法能提升模型性能与公平性。
摘要
对抗训练在提高深度神经网络的鲁棒性方面很有效。然而,现有研究在模型的鲁棒性、泛化性和公平性方面仍存在显著缺陷。在本研究中,作者从理论和实践两个角度验证了不同扰动方向(即对抗扰动和反对抗扰动)以及扰动范围的重要性。在更普遍的扰动范围内,即不同样本可以有不同的扰动方向和变化的扰动范围,从理论上探究了对抗训练对深度学习模型在公平性、鲁棒性和泛化性方面的影响。理论探索表明,与标准对抗训练相比,在训练中结合不同范围的对抗