对抗样本的防御

对抗样本的防御

最近做的一次汇报,荣幸受到了某位院士的点评指导,整理一下。

一、研究背景

在图片域添加对抗样本
首先通俗地去看神经网络对图像进行分类预测,实质就是在训练过程中使网络权重参数拟合训练集的样本分布。对抗样本的概念其实很好理解,就是让模型识别出错,在图片域上的攻击不管你是什么样的算法,其实都是改变了图像的像素值;在物理域上的攻击无非就是添加了一些扰动,像下图中在路牌上贴一些贴纸来进行干扰,这是在目标检测中的应用(前几天跟华为16级的博士聊了几句,目标检测的安全未来会急缺打工人)
在这里插入图片描述
正是存在着这样的一些漏洞,才有去做防御的需求,防御总归是比攻击慢一步的,怎么去做防御?首先你要看攻击者是怎么做的,不管是在物理域还是普通的图像识别攻击者做的事情总结起来就是添加扰动,然后让模型识别出错,这个过程就牵扯到两部分:扰动和模型。所以做防御的思路也很清晰,你添加了扰动我就检测出你的扰动,你欺骗我的模型,那我就想方设法地去提高模型的抗干扰能力,也就是模型鲁棒性。这就是对抗样本防御的两个思路。
在这里插入图片描述

二、完全防御

完全防御这个概念是引的浙大任奎老师的论文,完全防御就是去提高模型的鲁棒性,这里做的PPT不方便给出,只介绍下思想,目前的做法主要有以下三种:

  1. 对抗训练
    这个很好理解,就是把用某种攻击算法生成的对抗样本也作为训练集去训练模型,缺点嘛,显而易见,耗费时间,而且攻击算法层出不穷,每次出现一个新的算法都要训练。
  2. 梯度掩蔽
    这个就是利用了梯度,因为目前利用梯度来生成对抗样本的算法是最有效的,用GAN那样的通用噪声生成器不怎么靠谱,既然利用了梯度来进行攻击,那就想办法来把梯度的作用减弱,常用的是防御蒸馏、深度压缩网络、输入梯度正则化,要理解这几种方式,去看论文。
  3. 输入转换
    也很好理解,就是用一些图像预处理和转换算法来减弱添加的噪声的影响

三、检测防御

只用完全防御行不行呢,我们来看一下场景
在这里插入图片描述
在车牌上贴贴纸,用的是百度的商业API接口,可以正常识别出车牌号,这说明提高模型鲁棒性是有必要的,但如果我来点硬核攻击呢,像这样:
在这里插入图片描述
直接把一个字母给盖掉了,这个时候模型基本上在瞎猜,它还会返回给我一个结果,这其实是一种异常,这个时候你怎么去提高你的模型鲁棒性都没有用了,所以在这情况下检测出异常更有意义,目前这方面相对来说还是比较少的,也是下一步可以继续关注的点。
好,回归正题,怎么做检测呢,我们采取的思想是预测不一致,对比样本去噪跟原样本经过模型的输出的差距是否很大,很大就说明是对抗样本,采取的算法17年Xu等提出来的特征压缩算法,检测框架如下:
在这里插入图片描述
用了两个去噪算法:压缩图像色深,图像平滑(其实就是中值滤波),基本上没有牵扯到数学公式,特别容易理解,当时看完都给爷整笑了,这都能发顶会。。。但是亲测实用,检测一些对抗样本确实有效,懒得讲咋做的了,看论文一遍就懂,放一张压缩图像色深的去噪效果图:
在这里插入图片描述
压缩到一位色深的时候整个成了二值图像,非黑即白,非常适用于背景信息少的图像,尤其是数字识别的,像银行卡那种的,对彩色图像效果会弱一点。
最后是这学期其中一点成果,集成了五种攻击算法,同时实现了对抗样本的检测,并在网页上显示,下一步继续做的话就是在线训练,在线优化提高模型鲁棒性,还有就是能不能设计一套多级联合防御框架,包括完全防御和检测防御,尤其在检测防御这块很有研究价值,检测出来后怎样进行下一步的处理。
在这里插入图片描述

  • 12
    点赞
  • 41
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值