【对抗攻击GAN系列IEEE2021】AI-GAN

qq_44572656

已于 2023-03-29 17:07:29 修改

阅读量1.5k

点赞数 24

文章标签：人工智能计算机视觉深度学习

于 2023-03-29 17:02:42 首次发布

本文链接：https://blog.csdn.net/qq_44572656/article/details/129839862

版权

AI-GAN 2021 IEEE

- AI-GAN

AI-GAN

在这里插入图片描述
干净图像通过预训练的模型提取特征。将特征与目标标签输入Generator，生成扰动图像（扰动+原图）。通过扰动图像在目标分类模型的预测结果、鉴别器鉴别真假的结果和鉴别器分类结果共同指导Generator训练。
另外添加一个对抗攻击者（文中选的PGD），将对抗攻击者生成的对抗图像和扰动图像的鉴别器分类结果、鉴别器对干净图像和扰动图像的鉴别损失共同作用指导Discriminator训练。

传统的对抗攻击方法的缺点

基于优化的方法
- 耗时长、计算量大、强攻击需要访问目标模型。
基于GAN的方法
- 一个训练好的generator只能针对特定的目标实现目标攻击
- 难以扩展到真实世界的数据集

AI-GAN意义

在Discriminator中增加分类的分支并加入一个攻击者，此分支为对抗训练能够更有效的指导Generator生成攻击图像。
增加一个攻击者的目的：在分类模块进行对抗训练，增强Generator的攻击能力
鉴别器有助于稳定和加速GAN的训练
干净图像x，Generator生成的扰动图像x^’，GAN中增加的攻击者产生的攻击图像x^’’

Discriminator的损失函数

Discriminator两个分支：一个用于区分干净图像和扰动图像，一个用于对扰动图像正确分类。

损失函数=L_S+ L_C(adv)+L_C(pert)：

L_S区分干净图像与扰动图像的损失
L_S=E[log P(S=clean|x)]+E[log P(S=perturbed|x^’)]
L_C(adv)分类对抗图像的损失
L_C(adv)=E[log P(C=y|x^’')]
L_C(pert)分类扰动图像的损失
L_C(pert)=E[log P(C=y|x^’)]

Generator的损失

使用预训练的编码器提取特征，将特征和目标标签输入生成器生成对抗扰动。

损失函数= L_target(pert)+L_D(pert)-L_S：

L_S攻击Discriminator区分干净图像与扰动图像的损失
L_S=E[log P(S=clean|x)]+E[log P(S=perturbed|x^’)]
L_target(pert)攻击目标模型分类的损失
L_target(pert)=E[log P(C=t|x^’)]
L_D(pert)攻击Discriminator分类的损失
L_D(pert)=E[log P(C=t|x^’)]

实验效果

时间对比：

在这里插入图片描述

AI-GAN可以训练一个Generator同时发起不同标签的目标攻击攻击，不同标签的攻击成功率如下：

在这里插入图片描述

AI-GAN和AdvGAN攻击效果对比（AdvGAN训练一个目标攻击的Generator，目标标签只能为1个）：

在这里插入图片描述

AI-GAN生成的扰动图像：

在这里插入图片描述

AI-GAN与其他攻击方法的对比：

在这里插入图片描述

qq_44572656

关注

24
点赞
踩
37

收藏

觉得还不错? 一键收藏
0
评论
【对抗攻击GAN系列IEEE2021】AI-GAN

通过扰动图像在目标分类模型的预测结果、鉴别器鉴别真假的结果和鉴别器分类结果共同指导Generator训练。另外添加一个对抗攻击者（文中选的PGD），将对抗攻击者生成的对抗图像和扰动图像的鉴别器分类结果、鉴别器对干净图像和扰动图像的鉴别损失共同作用指导Discriminator训练。在Discriminator中增加分类的分支并加入一个攻击者，此分支为对抗训练能够更有效的指导Generator生成攻击图像。Discriminator两个分支：一个用于区分干净图像和扰动图像，一个用于对扰动图像正确分类。
复制链接

扫一扫