简介:最近开始看AI安全方面的书,本文主要介绍针对AI系统的攻击方式,以及检测和加固的方法。
一、针对AI系统的攻击方式
1.模型窃取
2.数据投毒
3.对抗样本
对抗样本:实际是对数据增加一定的扰动
对抗样本不是噪声,而是特征
对抗训练实际上是一种数据增强
二、脆弱性检测分类
1、白盒检测算法:
ILCM(最相似迭代算法),FGSM(快速梯度算法),BIM(基础迭代算法),PGD,MIFGSM,CW(C/W算法),Deepfool。
2、黑盒检测算法
Single Pixel Attack(单像素攻击)
Local Search Attack (本地搜素攻击)
2、加固方法
Feature squeezing(特征凝结)
Spatial smooth(空间平滑)
Label smoothing(标签平滑)
Adversarial training(对抗训练)
Virtual Adversarial training(虚拟对抗训练)
Gaussian data augmentation (高斯数据增强)
在进行Adversarial training进行加固时可使用常见的对抗训练工具箱:
对抗训练工具箱AdvBox 活 foolbox