Uncovering the Limits of Adversarial Training against Norm-Bounded Adversarial Examples

最新推荐文章于 2024-07-10 17:06:16 发布

MTandHJ

最新推荐文章于 2024-07-10 17:06:16 发布

阅读量443

点赞数

分类专栏： neural networks

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/MTandHJ/article/details/109437770

版权

neural networks 专栏收录该内容

143 篇文章 6 订阅

订阅专栏

Uncovering the Limits of Adversarial Training against Norm-Bounded Adversarial Examples

文章目录

Gowal S., Qin C., Uesato J., Mann T. & Kohli P. Uncovering the Limits of Adversarial Training against Norm-Bounded Adversarial Examples. arXiv preprint arXiv 2010.03593, 2020.

概

暴力美学, 通过调参探索adversarial training的极限.

主要内容

实验设置

模型主要包括WRN-28-10, WRN-34-10, WRN-34-20, WRN-70-16;

优化器为SGD(nesterov momentum), 1/2, 3/4 epochs处 lr /= 10, weight decay 5e-4;

对抗训练用的是PGD-10, 步长为2/255 $\ell_{\infty}$ 和15/255 $\ell_{2}$ .

损失的影响

实际上就是比较不同方法的区别(包括外循环的损失和内循环构造对抗样本的损失, TRADES稍优):

额外的数据

有很多方法用了无标签数据作为额外的数据来进行训练并取得了很好的效果.

上表作者比较的是无标签数据的量, 显示过多的数据并不能一直增加鲁棒性.

上图关注的是有标签数据和无标签数据之前的比例关系, 显然无标签数据似乎更能带来鲁棒性(这与无监督训练更具鲁棒性是一致的).

网络结构

从上图可知, 网络越大鲁棒性越好.

其他的一些tricks

Model Weight Averaging: 作者发现这个对提高鲁棒性很有帮助, 且这方面缺乏研究
激活函数: Swish/SiLu表现不错, 整体相差不大.
Learning Rate Schedule: 常用的multistep decay表现最好.
训练次数: 并非越大越好, 实际上已经有最新工作指出对抗训练存在严重的过拟合.
正则化(weight decay): $\ell_2$ 正则化, 即weight decay在对抗训练中有重要作用.
构造对抗样本所需的steps: 步数越多鲁棒性越好, 但是这是一个trade-off, 伴随着干净数据集的正确率下降
构造对抗样本的epsilon: 有类似上面的结论, 太大了二者都会下降.
Batch Size: 同样并非越大越好.
Augmentation: 似乎对于对抗训练意义不大, 但是个人在实验中发现这对防止过拟合有一定效果.
Label Smoothing: 几乎没影响

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。