基于AlexNet的对抗样本攻击

果子尝尝

已于 2022-10-06 18:35:00 修改

阅读量1.5k

点赞数 1

文章标签：机器学习人工智能 pytorch 深度学习生成对抗网络

于 2022-10-05 23:40:27 首次发布

本文链接：https://blog.csdn.net/m0_58092763/article/details/127178415

版权

第二部分：模型与优化器的选定，各类参数的设定

1.先让模型针对mnist数据集进行识别训练，以得到相应权值

2.cw攻击效果展现

四、目前存在的问题

一、背景介绍

CW算法是一种基于优化的算法，它同时兼顾高攻击准确率和低对抗扰动的两个方面，达到真正意义上对抗样本的效果，即在模型分类出错的情况下，人眼不可查觉。

如果样本攻击成功就要满足两个条件：（1）对抗样本和对应的干净样本应该差距越小越好；（2）对抗样本应该使得模型分类错，且错的那一类的概率越高越好。由这两部分对应两个loss函数。

第一部分，rn对应着干净样本和对抗样本的差，把对抗样本映射到了tanh空间里面，使x可以在-inf到+inf做变换，有利于优化。也可以认为这种方法是一种平滑的梯度下降的方法，消除了在极端区域中陷入平缓而梯度消失的问题。

第二部分，公式中的Z(x)表示的是样本x通过模型未经过softmax的输出向量，对于干净的样本来说，这个向量的最大值对应的就是正确的类别（如果分类正确的话），现在我们将类别t（也就是我们最后想要攻击成的类别）所对应的逻辑值记为Z(An)t，将最大的值（对应类别不同于t）记为max{Z(An)i : i!=t }，如果通过优化使得max{Z(An)i : i!=t } - Z(An)t变小，攻击就离成功更近了。k是置信度，可以理解为，k越大，那么模型分错，且错成的那一类的概率越大。最后就是常数c,这是一个超参数，用来权衡两个loss之间的关系，在这个代码中通过二分查找来确定c值。

CW是一个基于优化的攻击，主要调节的参数是c和k。它的优点在于，可以调节置信度，生成的扰动小，可以破解很多的防御方法，缺点是很慢。

二、代码实现

1.代码的基本结构

第一部分：数据集的导入

1. 选定的mnist数据集，每次导入一种图片进行cw攻击

2. 图片大小：28x28 标签： 0~9

3. 初始图片信息为ndarry格式（28,28,3），经过各种操作（如转换为浮点型，resize高宽大小，transpose等），最终转换为可供模型读取的信息格式

第二部分：模型与优化器的选定，各类参数的设定

1. 我们使用的是alexnet模型和Adam优化器

2. 在进行攻击训练前，已经让alexnet模型针对mnist数据集进行识别的训练，得到了针对mnist数据集的权值

3. 各类参数的设定包括了最大迭代次数，学习率，二分查找最大迭代次数，c的初始值（c为超参数，可以简单理解为两个loss函数在最终loss值中所占比例），k值（置信度），均值，标准差等等

第三部分：cw攻击效果的训练

1. 最外层的循环为每次从数据集中导入一种图片，针对于每次导入的那张图片进行cw攻击

2. 紧接着的循环用于尝试不同的c值，通过二分法查找使得攻击效果最好的c值

3. 再内层的循环为针对一张图片的攻击效果的不断优化

（1）将当前噪声与原始样本叠加，形成攻击样本

（2）将攻击样本导入模型，得到梯度和结果

（3）根据模型检测的结果，计算两个loss函数值

loss1：用于挑选指定分类标签和剩下其他分类中概率最大者，计算两者之间的概率差

loss2：用于计算对抗样本和原始数据之间的距离

loss=c*loss1+loss2

（4）进行backward，并调用优化器进行优化。（每次循环前进行梯度清零操作）