Atack
对样本进行攻击。使分类失败
改变x 生成新的图片
1.正常的training,Loss越小越好,使y接近正确结果。 2.无目标的攻击, 使loss越大越好。 -C 3. 有目标的攻击, 是 -C越大, 还要使目标越接近y的错值。 4. x' 和x0 距离d 小于等于一个值, 自定义。 | |
distance 很多种设计 如 平方差
最大差 同样d值L-infinity 差距更明显 | |
gradient desent, Loss 越小越好。对x求导 | xt超出范围,找在原x0范围内就近的x。拉到尖角 |
Attack Approaches •常见攻击方法 FGSM (https://arxiv.org/abs/1412.6572) Basic iterative method (https://arxiv.org/abs/1607.02533) L-BFGS (https://arxiv.org/abs/1312.6199) Deepfool (https://arxiv.org/abs/1511.04599) JSMA (https://arxiv.org/abs/1511.07528) C&W (https://arxiv.org/abs/1608.04644) Elastic net attack (https://arxiv.org/abs/1709.04114) Spatially Transformed (https://arxiv.org/abs/1801.02612) One Pixel Attack (https://arxiv.org/abs/1710.08864) ...... only list a few | FGSM, 不关心距离, 只关系方向, 直接1, -1。一步到位, 类似, 设置了很大的learning rate, 最后落在distance上。 |
以上是知道参数进行攻击, 是White Box Attack, 黑盒也可以攻击。
用training data 训练新的模型, 用模型找到攻击图片。 用新生成的图片攻击原来黑盒模型 | 可能存在一张图片攻击所有模型的情况 |
现实中攻击的例子 带上眼镜, 可以被人脸识别识别成某个明星
30~50个的人脸角度, 都能识别出来 确保眼睛能以色快的方式大片呈现, 像素间的极端差异不容易被相机捕捉 确保能印出来,物理辨识能够 |
Defense
Adversarial Attack cannot be defended by weight regularization, dropout and model ensemble.
Passive defense 被动攻击, 加上一层filter, 可以设计几个filter 保护model。给model 加上盾牌。
攻击信号只在某几个方向有效, 如可以加smoothing,使攻击失效。 | 图片缩放, 加padding, 加上杂讯等 |
Proactive Defense 主动攻击,
先用某种攻击算法, 把每个训练图片, 计算出攻击数据, 把攻击数据加入到training data,给他正确的label。 重新训练把洞补起来。因为新的参数可能产生新的漏洞, 所以继续重新训练,需要多次循环。
因为攻击可能用到不同的模型,所以defense 还是比较困难的。