简介
本文基于文章A Review of Adversarial Attack and Defense for Classification Methods的总结,提供对抗领域的几种常见的防御方法
攻击方法见:对抗攻击方法(Adversarial attack method)
防御方法大体分为四大类:(1)对抗训练(2)引入随机因素(3)用投影去除对抗性扰动,(4)检测对抗性示例而不是正确分类它们。
一、对抗训练(Adversarial Training)
非常经典的提高鲁棒性的方法
对抗训练致力于解决以下问题:
这是一个经典的最大最小问题,最大化损失用于创建对抗样本,而最小化则用于使得分类器正确分类对抗样本
介绍一种非常经典的对抗训练方式TRADES(Theoretically Principled Trade-off between Robustness and Accuracy)