Open-set Adversarial Defense
文章目录
背景
1、Open-set 的识别模型易受对抗攻击的影响
2、在闭集上训练的一些对抗防御方法不能很好地泛化到开放集
本文提供的方法无论在闭集上还是在开放集中,对抗样本的准确率都会提升。
proposed method
本文提出的方法包括4个CNN模块:
- encoder: 提取添加扰动攻击后的对抗样本的潜在特征,带特征去噪层(移除对抗噪声)
- decoder: 根据encoder提取到的特征进行noise-free图像重建。由此得到了重建后的图像与原图像的Reconstruction Loss(Lrec)
- open-set classifier: 开放集的分类器。由此得到了Classification Loss (Lcls)
- transformation classifier: 对原图像进行随机变换后再添加对抗扰动,然后通过转换分类器进行分类。由此得到了Self-supervision Loss (Lssd)
Noise-free Feature Encoding
一般分类CNN模型的前半部分,但是在每一层后面添加了一个去噪层。本文CNN模型基于resnet18,去噪层用的是基于non-local means filter的Gaussian(softmax)。
Open-set Classification
开放集的分类器与一般的分类器一样,但是在Full Connection层后添加了OpenMax层。分类器用来分类被扰动后的已知类别和未知类别的样本。
开放集分类器的交叉熵损失: