近年来,对抗样本(Adversarial Examples)及其防御方法成为计算机视觉(CV)领域的研究热点。对抗训练(Adversarial Training)作为最有效的防御机制之一,通过在训练过程中引入对抗样本,提高模型的鲁棒性。而自对抗训练(Self-Adversarial Training)则在对抗训练的基础上,进一步降低计算成本。
本文将以 CV 算法为例,由浅入深地介绍对抗训练与自对抗训练的核心思想、公式推导、优缺点对比及改进方向。
目录
(1)FGSM(Fast Gradient Sign Method)
(2)PGD(Projected Gradient Descent)
一、对抗训练:核心思想与公式推导
对抗训练的目标是在训练过程中生成最具挑战性的对抗样本,从而提升模型的鲁棒性。
1. 对抗训练的核心公式
对抗训练的优化目标是一个双层优化问题:
参数说明:
:输入图像,其中
是高度,
是宽度,
是通道数(如 RGB 通道)。
:标签,表示输入样本的真实类别。
:对抗扰动,表示每个像素点的扰动大小。
:扰动的约束集合,通常规定
。
公式
的含义是对抗扰动
的大小受 p-范数约束。
是向量
的p-范数
定义为:
这里,
是向量中第 i 个分量,n 是总分量数(例如图像中所有像素点的总数)。
- 当
时,这是欧几里得范数(
-范数),表示扰动的平方和的平方根。
- 当
时,这是最大范数(
-范数),表示所有分量的最大绝对值。
是扰动的最大允许幅度: