Attcak and Defense

Atack

对样本进行攻击。使分类失败

改变x 生成新的图片

1.正常的training,Loss越小越好,使y接近正确结果。

2.无目标的攻击, 使loss越大越好。 -C

3. 有目标的攻击, 是 -C越大, 还要使目标越接近y的错值。

4. x' 和x0 距离d 小于等于一个值, 自定义。

  

distance 很多种设计

平方差

 

最大差   同样d值L-infinity 差距更明显

gradient  desent, Loss 越小越好。对x求导

xt超出范围,找在原x0范围内就近的x。拉到尖角

Attack Approaches
•常见攻击方法
FGSM (https://arxiv.org/abs/1412.6572)
Basic iterative method (https://arxiv.org/abs/1607.02533)
L-BFGS (https://arxiv.org/abs/1312.6199)
Deepfool (https://arxiv.org/abs/1511.04599)
JSMA (https://arxiv.org/abs/1511.07528)
C&W (https://arxiv.org/abs/1608.04644)
Elastic net attack (https://arxiv.org/abs/1709.04114)
Spatially Transformed (https://arxiv.org/abs/1801.02612)
One Pixel Attack (https://arxiv.org/abs/1710.08864)
...... only list a few

FGSM, 不关心距离, 只关系方向, 直接1, -1。一步到位,

类似, 设置了很大的learning rate, 最后落在distance上。

以上是知道参数进行攻击, 是White Box Attack, 黑盒也可以攻击。

用training data 训练新的模型, 用模型找到攻击图片。

用新生成的图片攻击原来黑盒模型

可能存在一张图片攻击所有模型的情况

现实中攻击的例子

带上眼镜, 可以被人脸识别识别成某个明星

 

30~50个的人脸角度, 都能识别出来

确保眼睛能以色快的方式大片呈现, 像素间的极端差异不容易被相机捕捉

确保能印出来,物理辨识能够

Defense

Adversarial Attack cannot be defended by weight regularization, dropout and model ensemble.

Passive defense 被动攻击, 加上一层filter, 可以设计几个filter 保护model。给model 加上盾牌。

攻击信号只在某几个方向有效, 如可以加smoothing,使攻击失效。

图片缩放, 加padding, 加上杂讯等

Proactive Defense 主动攻击

先用某种攻击算法, 把每个训练图片, 计算出攻击数据, 把攻击数据加入到training data,给他正确的label。 重新训练把洞补起来。因为新的参数可能产生新的漏洞, 所以继续重新训练,需要多次循环。

因为攻击可能用到不同的模型,所以defense 还是比较困难的。


 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值