《Adversarial Examples: Attacks and Defenses for Deep Learning》阅读笔记

本文就本星期阅览的关于AML领域的相关知识做一下笔记。

 

1. 《Adversarial Examples: Attacks and Defenses for Deep Learning》

   这篇文章主要概述了AML领域的一些概念。

   1.1 攻击方法分类

      1)false positive 和 false negative

         False positive指模型将人眼无法识别的无意义图片高置信度分类为某一类图片;false negative指将原本可以正确分类的图片变为无法被正确分类的图片。

      2)白盒攻击和黑盒攻击

         这个在之前的学习笔记里有概括。在白盒攻击的情况下,攻击者知道被攻击模型的相关参数;黑盒攻击的情况下,攻击者无法获得模型参数。

      3)target attack和non-target attack

         target attack指攻击者希望对抗样本被指定误识别为某一类;对应地,non-target attack指攻击者没有指定对抗样本会被误识别的类别,可以理解为攻击者只希望对抗样本被误识别,而不在意误识别后的结果。

      4)One-time attack和Iteration attack

      5)Individual attack和Universal attack

         Individual attack对单一样本添加扰动(一般认为这是具有针对性的扰动),Universal attack对整个数据集添加通用的扰动。

      6)optimized perturbation和constrained perturbation

         optimized perturbation条件下,构造对抗样本需要考虑优化添加扰动的大小,前一期所研究的CW attack就是这一类算法;constrained perturbation条件下,构造对抗样本只需要满足约束条件。

      7)不同的扰动大小衡量标准

      8)数据集和被攻击模型

         举个例子,现在看到的对抗样本构造多是基于MNIST或者CIFAR数据集,被攻击模型通常为VGG,LeNET等。

   在之后的章节作者逐一介绍了现有的15种攻击算法,还没有全部看完,接下来需要找到文中给出的算法原文再进一步了解。

  

  1.2 作者的展望

     这一部分说了作者对于AML领域的一些未来发展的展望:

    1) 对抗样本的迁移性问题

    希望对抗样本的构造能够更加泛化,如果我们生成的对抗样本能够适用在不同的模型上,就能解决黑盒攻击的难题,同时对于防御方,也能通过构造具有泛用性的对抗样本来增强自身模型的鲁棒性。

    2) 对抗样本的存在性问题

    对抗样本的存在是否是因为DNN的固有属性导致的,作者将对抗样本的存在归类于三点:①数据量不足,测试的样本广泛性还不够 ②模型能力原因,即CW也说过的在DNN中可能存在的局部线性的性质 ③模型不够鲁邦,认为目前的决策边界确定的还不够准确

    3) 模型的鲁棒性衡量问题

    由于出现了防御方法能够防御某种攻击,而对另一种攻击失效的问题,作者认为应该:①提出衡量模型鲁棒性的标准 ②建立攻击和防御的基准平台

 

2. 对本文的一些思考

  本文系统地列举了AML领域目前现有的一些攻击算法思路和相关衡量标准,是系统学习AML的一个良好的指引。作者作出的展望是一个很好的学习方向。我了解到,多数的对抗攻击还是基于Lp范数约束条件下的, Non-lp范数约束也是对抗样本构造的一个方向。对于去掉扰动限制的对抗样本的针对性防御方法是一个比较有挑战性的方向。

 

3. 接下来的打算

  完成基于内容的图像检索的概述,补充数学知识。阅读文献《Unrestricted Adversarial Examples via Semantic Manipulation》。

 

 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Adversarial attacks are a major concern in the field of deep learning as they can cause misclassification and undermine the reliability of deep learning models. In recent years, researchers have proposed several techniques to improve the robustness of deep learning models against adversarial attacks. Here are some of the approaches: 1. Adversarial training: This involves generating adversarial examples during training and using them to augment the training data. This helps the model learn to be more robust to adversarial attacks. 2. Defensive distillation: This is a technique that involves training a second model to mimic the behavior of the original model. The second model is then used to make predictions, making it more difficult for an adversary to generate adversarial examples that can fool the model. 3. Feature squeezing: This involves converting the input data to a lower dimensionality, making it more difficult for an adversary to generate adversarial examples. 4. Gradient masking: This involves adding noise to the gradients during training to prevent an adversary from estimating the gradients accurately and generating adversarial examples. 5. Adversarial detection: This involves training a separate model to detect adversarial examples and reject them before they can be used to fool the main model. 6. Model compression: This involves reducing the complexity of the model, making it more difficult for an adversary to generate adversarial examples. In conclusion, improving the robustness of deep learning models against adversarial attacks is an active area of research. Researchers are continually developing new techniques and approaches to make deep learning models more resistant to adversarial attacks.

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值