《Adversarial Attacks on Neural Network Policies》阅读笔记

最新推荐文章于 2023-07-08 11:37:56 发布

孤山大姐姐

最新推荐文章于 2023-07-08 11:37:56 发布

阅读量576

点赞数 1

分类专栏：对抗攻击文章标签：深度学习

本文链接：https://blog.csdn.net/veunrio/article/details/115123790

版权

本文探讨了对抗攻击对神经网络策略的影响，分析了白盒（FGSM方法）和黑盒攻击在强化学习中的实施，研究了跨策略和跨算法的攻击迁移性。实验表明，尽管黑盒攻击效果不如白盒，但仍具有一定的有效性，强调了对强化学习模型进行安全测试的重要性。

摘要由CSDN通过智能技术生成

摘要

对抗攻击可以攻击基本的神经网络模型，攻击常见的深度学习任务（如分类、识别）等，仅需要通过修改一像素的值，就可以使得神经网络输出目标结果，并且在白盒与黑盒场景下均可以攻击成功。值得注意的是，考虑到现实任务中积攒的数据往往总是那么规整，全面，且需要人工智能模型参与决策的任务变得更多了，对无监督学习、强化学习模型的攻击（在某些应用场景下也可以理解为测试）也需要考虑到其特质，进行进一步研究。本文认为目前的对抗攻击方法也能用于攻击强化学习策略。

介绍

强化学习没有大量的标记好的训练样本，其训练数据是通过训练过程得来的，可以理解为“试错”的过程。因此，其不像对抗攻击常用于的图像分类领域，没有大量标注好的训练数据可以用来生成对抗样本。同时，对比于白盒攻击，在黑盒攻击场景下，攻击者既无法获得目标策略网络的细节，也无法获得大量训练集，因此对强化学习模型的攻击难度更大。
对抗样本的有效性受到两方面因素影响，首先是用于学习策略的深度强化学习算法，其次是攻击前提是白盒还是黑盒。因此本文主要内容包括以下两个方面：

分析了白盒攻击（本文中是FGSM方法）对三种强化学习训练出的Atari games的攻击。
分析了针对以上策略的黑盒攻击（可以访问训练环境，但不知道具体算法是什么，也不能初始化目标策略）。

白盒攻击过程

采用FGSM方法，计算损失函数关于输入 $x$ 的梯度。类似于用于图像分类的CNN，输出 $y$ 是多维的，维数 $n$ 代表采取的action。在计算梯度时，我们认为采取的最优action即是输出 $y$ 中值最高的一维代表的action。在三种我们考虑的学习算法中，TRPO和A3C均为随机性策略强化学习，DQN则是确定性策略强化学习。