AI 可靠性论文整理
鲁棒性 Robustness
通过暴露和修复漏洞来确保AI系统的安全性和可靠性
- 识别并防御新的攻击
- 设计新的对抗性训练方法来增强对攻击的抵御能力
- 开发新的度量来评估稳健性。
相关文献
高优先级
对抗样本设计与抵御
Threat of Adversarial Attacks on Deep Learning in Computer Vision: A Survey
总结了目前主流的对抗性样本攻击及抵御方法
EXPLAINING AND HARNESSING ADVERSARIAL EXAMPLES
Goodfellow 等人对对抗性样本的解释以及控制方法
Synthesizing Robust Adversarial Examples
设计强大的对抗样本
DELVING INTO TRANSFERABLE ADVERSARIAL EXAMPLES AND BLACK-BOX ATTACKS
对抗样本通常不特定于某个模型或架构,针对某个神经网络架构生成的对抗样本可以很好地转换到另一个架构中。这意味着有可能对一个完全的黑箱模型创建一个对抗样本。伯克利的一个小组使用这种方法在商业性的人工智能分类系统中发起了一次成功的攻击
Exploring the Hyperparameter Landscape of Adversarial Robustness
探讨了对抗性训练的一些实际挑战,提出了一种实用的方法,利用超参数优化技术来调整对抗性训练,以最大限度地提高稳健性。
Towards Deep Learning Models Resistant to Adversarial Attacks
介绍了提高显著提高对抗性攻击抵御能力的方法
Deep Neural Networks are Easily Fooled: High Confidence Predictions for Unrecognizable Images
介绍了如何用对抗样本欺骗神经网络做出错误的判断
鲁棒性评估
Ensemble Adversarial Training Attacks and Defenses
Goodfellow 等人阐述了如何评判一个模型针对对抗扰动的抵抗性,以及同时进行白盒攻击和黑盒攻击的重要性。
CERTIFIED DEFENSES AGAINST ADVERSARIAL EXAMPLES
评估神经网络的对抗鲁棒性
CNN-Cert: An Efficient Framework for Certifying Robustness of Convolutional Neural Networks
提出一个通用且有效的框架:CNN-Cert,它能够证明一般卷积神经网络的鲁棒性。
Evaluating the Robustness of Neural Networks: An Extreme Value Theory Approach
提供了将鲁棒性分析转换为局部Lipschitz常数估计问题的理论证明,并提出使用极值理论进行有效评估。我们的分析产生了一种新的鲁棒性度量标准,称为CLEVER,CLEVER是第一个可以应用于任何神经网络分类器的独立于攻击(attack-independent) 的稳健性度量。