CVPR2022:DEFEAT: Deep Hidden Feature Backdoor Attacks by Imperceptible Perturbation and ......

初入AI安全,暑假回家持续看论文中......

目的:生成一种肉眼不可见且不会被各种防御手段检测出来的后门

方法:主要是通过生成网络和特征层限制的方法来生成隐蔽的触发器,主体方法如下图。

 

图abc是同一个网络的三个阶段,这篇文章主要是修改了损失函数,修改后的损失函数如下:

 

其中:Lce是交叉熵损失函数,F是分类模型,yt是目标标签,xi是干净样本,T是生成有毒样本的函数,d是欧氏距离函数。

 

 Ladv的Llf为:

 l是网络输出的层数,一共有N层。h是池化操作加一个偏差,Z是模型的每一层输出。

这个损失函数就是对有毒样本与干净样本在模型每一层输出后都加以限制,使得有毒样本与干净样本经过模型每一层输出后的特征图片相差较小,无法被防御手段感知到。

结果:攻击效果显著,可以抵御多种防御

想法:这篇文章也是白盒攻击且对模型中间层的输出加以约束。不同的是文章1仅仅使用了最后第二层,而这篇文章使用了所有层,并且约束的方法不一样,这篇文章除了欧式距离,还增加了池化操作的约束与一开始加了扰动后的图片与原图片区别的约束。从结果看,这篇文章比文章1好的地方是生成了一个不可见的扰动,但是这个不可见的扰动是得益与生成扰动的方式,文章1使用了加一个patch的方式,如果换一种方式生成不可见扰动的方式生成,也许这两篇文章的结果就差不多了。那么这篇文章使用的方法也许就有冗余,可能不需要每一层都加以约束就可以得到相同的结果。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值