1 基本概念
正确率高还不够,需要识别人类的欺骗。
加入杂讯,攻击分为有无目标的攻击。
根据有无目标设定Loss函数,杂讯还应该尽可能不被人察觉。
有两种方式计算怎么样才算不被人察觉。一种是原来的像素平均下来差异小,一种是只看哪个像素差异最大。
2 类神经网络
白箱攻击:知道模型的参数
黑箱攻击:拿相同的训练资料训练自己的模型,或者直接用输入输出训练一个模型。
为什么攻击这么容易?
数据的问题……
物理攻击,在训练阶段展开攻击。
防御
被动防御:
模糊化
主动防御:
在训练阶段自己攻击,再把被攻击后的图片标签改为正确的。不能很好地应对新的攻击算法,且需要很大资源。