关注公众号,发现CV技术之美
▊ 1 引言
由中科院,腾讯AI实验室以及香港中文大学联合出品的硬核对抗训练的新作LAS-AT发表于CVPR2022。对抗训练被认为是抵御对抗攻击最有效的防御方法,它通常会被描述为求解一个极小极大问题,其性能取决于内部优化生成对抗样本的质量。
目前在对抗训练中主流采用的攻击算法是PGD攻击,该算法需要人为手动指定攻击参数,有研究表明在对抗训练的不同阶段中固定的攻击策略会对提高模型鲁棒性带来限制。
在该论文中,作者通过引入“可学习的攻击策略”(LAS-AT)的概念,并提出了一种新的对抗训练框架,该算法框架利用强化学习机制自动生成攻击策略,从而进一步提高模型的鲁棒性。
论文:https://arxiv.org/abs/2203.06616
代码:https://github.com/jiaxiaojunQAQ/LAS-AT
▊ 2 方法概述
如下图所示为该论文的方法示意图,可以发现论文中的模型由一个目标网络和一个策略网络所组成。论文作者使用对抗样本去训练目标网络进而提高它的鲁棒性,同时策略网络生成攻击策略去生成对抗样本,由此可见这两个网络是具有竞争关系的。
目标网络:目标网络是一个用于图像分类的卷积神经网络,可以表示为,其中表示的是估计标签,是一张输入图像,是神经网络的参数。
策略网络:策略网络生成对抗攻击的策略进而去控制对抗样本的生成,其中输入的是一个样本,输出的是一个策略。由于策略网络的参数是逐步被更新的,在不同的训练阶段中&