阅读笔记--深度强化学习的攻防与安全性综述

最新推荐文章于 2024-06-16 22:13:47 发布

顾子茵

最新推荐文章于 2024-06-16 22:13:47 发布

阅读量1.1k

点赞数

分类专栏：论文阅读笔记文章标签：笔记深度学习人工智能安全

本文链接：https://blog.csdn.net/coreyckw/article/details/131933336

版权

论文阅读笔记专栏收录该内容

2 篇文章

订阅专栏

本文详细综述了深度强化学习的算法，如基于值函数的DQN和基于策略梯度的A3C等，以及它们面临的对抗攻击，包括观测、奖励、动作和策略等方面的攻击。同时，介绍了多种防御方法，如对抗训练和鲁棒学习，并讨论了深度强化学习的安全性评估和未来的研究方向，如生成式对抗网络在攻击和防御中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Abstract & Introduce

深度强化学习融合了深度学习的特征提取和强化学习的自主决策两大优势，然而研究表明深度强化学习很容易受到对抗样本攻击。本文较为全面你的综述了深度强化学习方法、对抗攻击和防御方法、安全性分析。

Mnih 等人提出了第一个深度强化学习框架–深度Q网络（Deep Q network，DQN）以来，深度强化学习（Deep reinforcement learning，DRL）方法就被人们视为迈向通用人工智能的必要路径之一。

基于值函数的算法：基于值函数的算法有双重深度 Q 网络 (DDQN)[1−3]、优先经验回放 Q 网络 (Prioritized DQN)[4]、对偶深度 Q 网络 (Dueling DQN)[5] 等,

基于策略的强化学习算法：有异步/ 同步优势行动者评论者 (A3C/A2C)[6]、信任域策略优化 (TRPO)[7]、K 因子信任域行动者评论者算法 (ACKTR)[8] 等

**攻击点：**针对强化学习算法的5个主要环节展开恶意攻击，环境、观测、奖励、动作和策略。

**防御方法：**对抗训练、鲁棒学习和对抗检测

第 1 节介绍主要的深度强化学习算法;
第 2 节针对强化学习的 5 个方面介绍攻击方法;
第 3 节介绍相应的防御方法;
第 4 节分析深度强化学习的安全性;
第 5 节相关应用平台及评估指标;
最后, 总结并列举未来可能的研究方向

第一节

马尔可夫决策过程：

强化学习问题通常可以被建模为 马尔科夫决策过程 (Markov decision process, MDP) , 可以由一个四元组MDP = (S, A, R, P)表示 , 其中S示决策过程中所能得到的状态集合, 表示决A策过程中的动作集合, R表示用于对状态转移做出的即刻奖励, P则为状态转移概率. 在任意时间步长t的开始, 智能体观察环境得到当前状态 St, 并且根据当前的最优策略Π*做出动作At . 在t的最后, 智能体得到其奖励Rt及下一个观测状态 St+1.

1.1 深度强化学习分类：

第一类是基于值函数的深度强化学习，该类方法旨在利用深度神经网络逼近目标动作价值函数，倾向于原则价值最大的状态或动作。缺点：训练过程不够稳定，不能够处理动作空间连续的任务。

第二类是基于策略梯度，该方法旨在将策略参数化，利用深度神经网络逼近策略，沿着策略梯度的方向寻求最优策略。更稳定，缺点：比较复杂且再通过采样方式进行学习时会导致方差较大。

1.2 深度强化学习算法总览：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vL8HTsAH-1690338038845)(assets/image-20230725112039165.png)]

1.3 基于值函数的深度强化学习

最初灵感来源于RL中的Q学习。Q学习旨在啊通过贝尔曼方程，采用时许差分方式进行迭代更新状态-动作价值函数Q，使得Q函数逼近至真实值Q*从而得到最优策略：

Qπ(s, a) = Eπ[Gt|St = s, At = a]

π∗ = arg max Q ∗ (s, a)

在解决一些顺序决策问题时具有较好表现但是有很多缺陷：1)复杂场景下状态空间过大导致Q表难以维护；2）学习过程中训练样本的的高度连续性打破了机器学习的独立同分布要求；3）由于Q学习是一种在线学习，一些不常见的样本在使用一次后就被放弃，导致样本使用效率低。

基于值函数的深度强化学习最初起源于RL中的Q学习，为了解决Q学习最主要的三大缺点，提出了深度Q网络，（1）利用深度卷积网络来逼近Q函数，解决状态空间过大导致的问题，以及特征提取的问题；（2）采用经验回放机制使训练数据成为独立同分布，降低了数据间的关联性；（3）通过复制利用提高了样本的利用率。

后面的工作在深度网络的基础上针对不同的方面进行优化，

针对价值过估计的问题，提出了双重深度Q网络，训练两个网络利用目标网络来估计价值，利用评估网络选择动作。

在评估准确性方面进行优化，有学者提出了对偶深度Q网络，利用状态价值函数与相应动作价值函数共同评估Q值，

为了减少隐藏信息的代价

【完全可观和部分可观介绍：原始的DQN基于完全可观这一假设，然而在现实任务中，智能体的部分可观性会导致不完整的或者含噪的状态特征。除此之外，还有许多任务必须获取历史特征来对智能体进行训练，也就是说，未来的状态不仅取决于此刻的状态，还取决于历史状态，这种场景不满足马尔可夫决策过程（Markov Decision Process，MDP）的条件，我们将这种场景称为部分可观马尔可夫决策过程。DQN在部分可观的条件下，性能会下降许多，在这样的条件下，将LSTM（长短期记忆人工神经网络）与DQN结合，发明了DRQN）框架，结果表明该方法能够有效地处理部分可观问题，即使在用全状态信息训练，部分状态信息测试的情况下，DRQN所损失的信息也明显少于DQN。】

有学者提出深度循环Q网络，在此基础上又有学者引入注意力机制，减少运算代价。

在简化训练难度方面，有学者提出噪声深度Q网络，在网络权重中加入参数噪声，提高了探索效率，角闪了参数设置，降低了训练难度。

针对经验回访的一些优化，有学者提出了优先经验回放网络，对经验池中的样本设置优先级，解决了稀有样本使用效率低的问题。为了解决经验回放带来的参数滞后而导致的表征漂移等问题，有学者提出了循环回放分布式深度Q网络，更进一步的还有演示循环回放分布式深度Q网络。

但上述大多方法依旧无法跳出基于值函数的深度强化学习本身的桎梏，训练不稳定，不能够处理动作空间连续的任务。

1.4 基于策略梯度的深度强化学习

为了解决基于值函数的深度强化学习难以处理动作空间连续的任务的缺点，以及DQN得到的策略无法处理随即策略问题，基于策略梯度的深度强化学习方法应运而生

通过深度神经网络对策略进行参数化建模Πθ（s,a）=p(a|s，θ)，即对应每个状态下采取不同动作的概率。通过策略梯度直接在策略空间中搜索最优策略。

基于策略梯度的深度强化学习的主要任务，是将策略Π参数化，表示为状态动作分布概率，然后计算关于动作的策略梯度，沿着梯度方向调整动作，最终找到最优策略。

根据策略定义不同可分为随机性策略（每个状态可能对应多个动作）与确定性策略（每个状态对应一个动作）。策略梯度常用于解决连续控制问题，常见的策略梯度算法有REINFORCE 算法[35]、自然策略梯度算法 (Natural policy gradient, Natural PG)[36] 以及行动者−评论者算法 (Actor-critic, AC)[37] 等.
其中DDPG算法依据确定性策略理论，解决了连续动作问题，为后续工作提供了基础。

为了使算法能够用在在线策略中并且降低数据相关性，有学者提出了A3C算法，创建多个子线程来代替经验回放，每个子线程独立并行的与环境交互，实现异步学习。后来提出了A2C算法，改异步为同步。

优化策略更新过程,为了找到合适的步长使得策略一直向回报增加的方向更新，有学者提出了信任域策略优化方法TRPO，通过KL散度来限制策略更新前后的分布差异。缺点：实现复杂计算代价过大

改进TRPO随后提出了**近端策略优化（PPO)**提升了采样复杂度，简化了计算，同时使用了无约束优化，保证性能的同时降低了算法复杂度。

后来有学者结合行动者评论者算法提出了Kronecker银子信任与行动者评论者算法（ACKTRR）利用k因子减少所需要的计算量。

第二节攻击方法

2.1 攻击方法分类

观测攻击：观测攻击实在观测的图片上添加扰动（在只能提的图像传感器上添加噪声），使得智能体做攻击者预期的动作。
奖励攻击：修改奖励值的符号，可以使用对抗奖励函数取代原有的奖励函数。
动作攻击：修改动作输出，通过修改训练数据中的动作空间来实现。
环境攻击：直接修改环境，
策略攻击：使用对抗智能体，生成目标智能体理解能力之外的状态和行为，使目标智能体进入混乱状态。

2.2 攻击方法及成功率总览

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-wZEX3t91-1690338038846)(assets/image-20230725112815894.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-r0L60p0W-1690338038847)(assets/image-20230725112850495.png)]

2.3 基于观测的攻击

1 FGSM攻击：测试阶段，白盒黑盒

利用快速梯度符号算法（FGSM）制造对抗扰动，直接添加到智能体的观测值上。FGSM主要思想：在深度学习模型梯度变化最大的方向添加该扰动，导致模型输出错误的结果。该攻击有较好的迁移性（为后面的黑盒环境设置下的可行性提供了基础），但没有考虑到强化学习连续时间上的高度相关性。

`💡深度强化学习的训练大多都是在原始环境下进行训练，如果对环境进行扭曲变形，例如对观测的图片进行图形扭曲等相应的操作，会不会使得智能体做出奇怪的动作]

2 策略诱导攻击：训练阶段，黑盒

使用基于深度学习分类器的攻击，敌手知道目标模型的输入类型及奖励函数，通过输入类型建立一个副本DQN，通过副本和奖励函数制造对抗样本，使目标DQN的训练不选择最优动作。【在等效模型的基础上使用对抗样本的迁移性进行攻击】

3 战略时间攻击：测试阶段，白盒

战略性选择攻击时间，提出动作偏好函数衡量当前状态下策略对动作的偏好程度，当偏好程度超过设定阈值的时候就制造扰动进行攻击。

4 迷惑攻击：测试阶段白盒，去往攻击者预期状态。

需要知道目标智能体在每一步会选择的动作，以及生成式预测模型获得目标模型提此后可能选择的路径，攻击者制造对抗样本迷惑智能体，使得智能体去往攻击者设定的预期状态。

5 基于值函数的对抗攻击：与战略是家安攻击类似，追求更少攻击次数

借助值函数模块评估当前状态价值的高低，价值高就对当前状态添加FGSM扰动。实验证明攻击者在一小部分帧内注入扰动就可以达到目的。但该方法不能用于单纯依靠策略梯度的场景。

6 嗅探攻击：在策略部署在服务器端的情境下，可行性更高

给定 4 种威胁场景 S、SA、SR、SRA, 分别对应于只监测状态信号、监测状态及动作信号、监测状态与奖励信号、同时监测三者，在这些场景下攻击者训练并得到代理模型，以代理模型为基础制造对抗样本。

7 基于模仿学习的攻击

通过模仿学习来提取目标模型，进而使用对抗样本的迁移性对目标模型进行攻击。和策略诱导攻击类似，不同的是模仿学习加快了等效模型建立的速度，为黑盒设置下对深度强化模型的攻击提供了新方案。

8 CopyCAT算法：比4更强，使得智能体遵循攻击者设定的策略，实时攻击

攻击的是智能体从观测环境到生成状态这一感知过程。算法步骤为三

收集智能体与环境交互的数据
根据收集的数据，采用优化算法为所有的观测感知过程生成掩码
在目标智能体测试阶段，根据攻击者预先设定的策略为智能体添加掩码，更改目标智能体动作所遵循的策略

这种算法既可以是恶化智能体策略，也可以是优化智能体策略。由于掩码是在攻击前预先计算得到，可以看作一种实时攻击。适用于对深度强化学习系统的攻击。

总结：FGSM旨在对观测值添加扰动来实现观测攻击，并且证明了对抗样本在智能体之间的可迁移性。后面出现的策略诱导攻击，基于模仿学习的攻击便是根据可迁移性而设计的黑盒攻击方式。

后来有人从攻击频率下手，指出在几个关键点攻击即可达到很好的效果，因此出现了战略时间攻击和基于值函数的对抗攻击。

上述攻击方式只是影响原本的智能体的策略，若攻击者能多知道智能体的一些具体细节，便可以引导智能体往攻击者期望的方向去，例如迷惑攻击可以让智能体去往共精子和设定的预期状态，更强一点的CopyCAT算法甚至可以使智能体按照攻击者设定的策略进行决策。

若策略部署在服务器端情况下，上述攻击方法可行性会降低，对此提出了嗅探攻击，在监控智能体观测值，动作信号，奖励信号三者的某些组合情况下便可以训练代理模型，以此模型为基础制造对抗样本进行攻击。

2.4奖励攻击

1 基于对抗变换网络的对抗攻击

将对抗变换网络整合到策略网络结构中，使得目标策略网络在训练时优化对抗性奖励而不再是优化原始奖励。通过实验证明, 对状态观测添加一系列的扰动, 可以对目标策略网络施加任意的对抗奖励

2 木马攻击

在很少部分训练数据中加入木马触发器，并且对这些训练数据对应的奖励值做出修改。及如果目标智能体对这些中毒样本状态做出了攻击者想要的动作，就基于最大奖励，否则最小奖励。

3 翻转奖励符号攻击

攻击者可以翻转经验回放池中 5% 样本的奖励值符号, 以此来最大化目标智能体的损失函数。短时间内有效，长期训练后，智能体依然可以从中恢复过来。

奖励攻击主要是通过干扰智能体的奖励信道（改变奖励），从而使智能体策略失效或者做出攻击者期望的动作。

2.5 基于环境的攻击

1 路径脆弱点攻击

在路径脆弱点上添加障碍物的攻击方法。利用某种技术找到一些特殊点，在这些点上添加对抗点来影响智能体行为。有学者根据Q值变化寻找路径脆弱点，通过脆弱点之间连线的角度辅助计算对抗样本点，最后通过在环境中加入对抗点减缓智能体找到最优路径的时间。

缺点：场景受限，且随着训练次数的增加，智能体依然可以收敛到最优路径。

2 通用优势对抗样本生成方法

Chen 等[20] 针对基于 A3C 的路径查找任务提出了一种通用的优势对抗样本生成方法。核心思想是在智能体训练过程中找到 值函数上升最快的梯度带, 通过在梯度带上添加 “挡板状” 的障碍物来使目标智能体无法到达目的地或者在最大程度上延长到达目的地所需要的时间。

3 对环境模型的攻击

环境动态模型的输入是当前状态及智能体动作, 输出为下一状态。有学者提出了对环境动态模型的攻击, 希望通过在动态模型上添加扰动使得智能体达到攻击者指定的状态。

基于环境的攻击顾名思义就是修改环境，或在在环境中添加扰动，或想办法在特定位置上添加障碍来阻碍智能体的决策。

2.6 动作空间扰动攻击

Lee 等[52] 提出了两种对 DRL 算法动作空间的攻击，并且由于动作空间独立于智能体策略之外, 因此这种通过扰乱动作空间以减少智能体所获得的累积回报的方法几乎无法被防御. 此类攻击适合应用于连续动作空间任务, 但是在面对经过独热编码的离散动作空间任务时难度较大。

2.7 通过策略进行攻击

攻击者控制对抗智能体在同一环境下与目标智能体进行对抗，通过各种混淆方式来创造目标智能体无法处理的场面，而使目标智能体策略失控。

第三节防御方法

3.1对抗训练

对抗训练的主要目的使提高策略对正常样本之外的泛化能力，但是对抗训练往往只能提高策略对参与训练的样本的拟合能力. 面对训练样本之外的对抗样本, 策略的性能表现依然不尽人意

1 使用FGSM与随机噪声进行重训练

先使用普通样本将智能体训练至专家水平, 之后将 FGSM 扰动与随机噪声添加至智能体的观测状态值上进行重训练，这种方法只能防御FGSM与随机扰动。

2 基于梯度带的对抗训练

只需要在一个优势对抗样本上（在一个优势对抗样本地图进行基于梯度带的对抗训练）训练即可免疫几乎所有针对此地图的优势对抗攻击。

3 非连续扰动下的对抗训练

与传统的在所有训练样本中添加扰动不同，该方法以一定的概率 P 在训练样本中添加 FGSM 扰动。实验表明该方法训练得到的智能体均可以从扰动中恢复性能，且面对连续FGSM扰动时，性能表现与正常情况相当。

4 基于敌对指导探索的对抗训练

该方法是对非连续扰动下对抗训练的改进。Behzadan 等[56] 将ε 贪婪探索与玻尔兹曼探索 结合, 提出了敌对指导探索机制。根据敌对状态动作对的显著性来调整对每个状态抽样的概率，提高非连续对抗扰动对抗样本的利用率。

扰动样本再训练，对抗训练。

针对非连续扰动的对抗训练进行研究-》概率扰动和动态调整抽样概率（提高非连续扰动对抗样本的利用率）

3.2 鲁棒学习

1 基于代理奖励的鲁棒学习

实际场景中，因为各种原因奖励中带有噪声。Wang 等[58] 提出使用奖励混淆矩阵来定义一系列的无偏代理奖励进行学习，利用该代理奖励训练能将模型从误导奖励中解救出来。实验证明, 使用代理奖励值训练得到的智能体在奖励噪声场景下具有更好的表现。

2 鲁棒对抗强化学习

两个智能体博弈。核心是令一个智能体以扮演系统中的干扰因素, 在目标智能体的训练过程中施加压力. 他们将策略的学习公式化为零和极大极小值目标函数, 目标智能体在学习过程中一边以完成原任务为目标, 一边使自己在面对对抗智能体的干扰时变得更加鲁棒。

3 其余基于博弈理论的鲁棒训练

Bravo 等[59] 将受到攻击或损坏的奖励值信道问题建模为强化学习智能体与对手之间的零和博弈问题。

Ogunmolu 等[60] 将深度强化学习智能体与攻击者在训练阶段的对抗交互建模为迭代的最大最小动态博弈框架, 通过控制训练过程来使两者达到鞍点均衡. 这种方法提高了模型训练的策略在对抗干扰下的鲁棒性.

和鲁棒对抗强化学习技术类似，与 Pinto 等[58] 类似, 对抗 A3C 在学习过程中引入一个敌对智能体, 以此模拟环境中可能存在的不稳定因素. 目标智能体通过与该敌对智能体博弈训练, 最终达到纳什均衡.

4 噪声网络

Behzadan 等[61] 对噪声网络的防御能力进行了测试. 在实验中, 他们使用等价模型方法建立了目标网络的副本, 以副本为基础制造 FGSM 对抗扰动（可以看作是一个噪声网络）。使用噪声网络训练的智能体在面对对抗扰动时具有更好的弹性与鲁棒性. Neklyudov 等[62] 也使用了类似的高斯方差层来提高智能体的探索能力与鲁棒性。

由此可见防御策略中，对抗样本训练和对抗博弈训练居多，一个是对样本进行操作之后（添加扰动或噪声）进行对抗训练来抵制一些对传感器，奖励信道等造成干扰的攻击，一个是智能体和另一个智能体进行博弈或者把某些对抗过程建模为博弈，来提高目标智能体在不稳定环境下的表现，提高鲁棒性，从而可以在现实环境下完成任务，或是在受攻击情况下完成任务。

3.3 对抗检测

1 基于元学习的对抗检测

Havens 等[63] 介绍了一种元学习优势层次框架。主智能体监控子策略，通过衡量一段时间子策略的回报来决定是否继续使用当前子策略。当子策略被攻击导致行为发生了变化，主智能能察觉并转换子策略。

2 基于预测模型的对抗检测

Lin 等[25] 提出了一种动作条件帧预测模型, 通过比较目标策略对预测帧与当前帧的动作分布差异来判断当前帧是否为对抗样本, 如果当前帧被判断对抗样本, 则智能体使用预测帧作为输入并执行动作。

例如预测模型用于生成预测观测值，如果目标策略对当前观测值和预测观测值的动作分布差异过大，智能体就会使用预测观测值作为输入。

3 水印授权

针对策略篡改的防御，Behzadan 等[54] 将 Uchida 等[67] 提出的水印技术加以修改并应用到了深度强化学习系统中。核心思想是为策略中对一些特定的状态转移序列加上唯一标识符，一旦攻击者对策略进行篡改并除法水印, 智能体就会中止活动。

4 受威胁的受威胁的马尔科夫决策过程

将攻击者对奖励值产生过程的干扰行为考虑在内. 同时提出了一种 K 级思维方式来对这种新型马尔科夫决策过程求解. 实验中, 攻击者以 1 级思维利用正常的 Q 学习算法降低目标智能体对奖励的获取, 目标智能体则以 2 级思维去估计攻击者的行为并尝试获得正向奖励。

5 在线认证防御

Lutjens 等[69] 提出了一种在线认证的防御机制, 智能体能在执行过程中保证状态动作值的下界, 以保证在输入空间可能存在对抗扰动的情况下选择最优动作。具体操作是：增加一个在线认证节点，为当前受扰动状态下的每个动作计算状态动价值下限Ql，智能体选择（下一步）状态动作价值下限最大的动作。

对抗检测旨在利用某种技术检测到攻击或者对抗样本，之后执行预先设置好的策略来防止陷入困境。

第四节安全性分析

4.1 基于等价模型的方法

由于 DNN 网络的复杂性, 对学习到的策略网络的鲁棒性等属性进行直接验证是比较困难的. 因此, 比较直观的想法就是使用等价模型来等效替代策略网络

我们需要根据替代模型的优势，在验证某一属性时有针对性的选择等价模型，也需要考虑到在生成等价模型过程中造成的损失。

4.1.1决策树等价模型

Bastani 等[71]提出使用决策树策略来等价 DNN 策略。由于决策树的非参数和高度结构化性质, 使用现有的技术可以对其进行有效的验证。对此, 他们提出了 VIPER 方法, 该方法在模仿学习算法的基础上利用了Q函数, 将原来的DNN策略作为专家策略, 最终学习到一颗较小的决策树。

4.1.2形式化验证技术

Zhu 等[73] 考虑了如何将传统软件系统开发的形式化验证技术用于强化学习的验证问题. 该技术不是通过检查和更改神经网络的结构来加强安全性, 而是使用黑盒的方法拟合策略, 继而得到一个更简单、解释性更强的合成程序. 之后利用数学证明工具，例如反例和句法引导的归纳综合过程来解决神经网络验证问题。

4.2 其他方法

4.2.1 基于碰撞避免

这种方法是事先设定一个安全边界并进行实验验证, 通过与模型本身得出安全边界对比来验证模型安全性能。

4.2.2 数值化验证

Behzadan等人提出了一种数值化鲁棒性的测量指标,可以独立于攻击类型之外进行评估智能体在测试阶段面对对抗性扰动的鲁棒性与弹性。定于对抗性后悔为为受干扰获得的回报和受到干扰获得的回报差，定义弹性指的是造成最大对抗性后悔需要的最小的扰动状态数量, 鲁棒性指的是给定最大扰动数量, 可以达到的最大对抗性后悔。

第五节应用平台与安全性评估指标

5.1 深度强化学习的环境基准

OpenAI Gym[75] 提供了多种环境

Johnson 等[76] 是一个基于流行游戏 Minercraft 的人工智能实验平台

MuJoCo[79] 是一个物理模拟引擎,

5.2 深度强化学习的算法实现基准

OpenAI Baseline[80] 提供了几种当下最流行的深度强化学习算法的实现, 包括 DQN、TRPG、PPO 等。 Rllab[81] 提供了各种各样的连续控制任务以及针对连续控制任务的深度强化学习算法基准。

5.3 深度强化学习的攻击基

CleverHans[83]、Foolbox[84] 都提供了制造对抗样本和对抗训练的标准化实现。

5.4 深度强化学习的安全性评估基准

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-JPz6oHZS-1690338038847)(assets/image-20230726101048094.png)]

第六节未来

攻击方法：

基于生成式对抗网络的对抗样本生成方法，生成大量高效的攻击
模仿学习构建替代模型缩短攻击准备时间
后门触发实现后门攻击

💡两个智能体进行对抗AB，其中B智能体外观上进行一系列的精心设计，使得A智能体在对抗训练过程中观测值带有噪音，利用这些观测值进行训练就会被嵌入一个后门，接着用C智能体替换B智能体便会触发后门，使得A智能体停滞不前或者瘫痪。
DRL 的多智能体任务, 多智能体的协同合作过程中存在的策略漏洞
从攻击的可解释性出发, 研究不同的攻击方法对策略网络中神经元的激活状况的影响, 寻找敏感神经元和神经通路来提高攻击的效果

防御方法：

使用自编码器对受扰动的奖励、观测信号进行数据预处理。
模型集合来提高模型鲁棒性。

安全性分析

未来还需要提出更深层的评估标准, 用以展现决策边界、环境模型在防御前后的不同。
基于生成式对抗网络的对抗样本生成方法，生成大量高效的攻击
模仿学习构建替代模型缩短攻击准备时间
后门触发实现后门攻击

💡两个智能体进行对抗AB，其中B智能体外观上进行一系列的精心设计，使得A智能体在对抗训练过程中观测值带有噪音，利用这些观测值进行训练就会被嵌入一个后门，接着用C智能体替换B智能体便会触发后门，使得A智能体停滞不前或者瘫痪。
DRL 的多智能体任务, 多智能体的协同合作过程中存在的策略漏洞
从攻击的可解释性出发, 研究不同的攻击方法对策略网络中神经元的激活状况的影响, 寻找敏感神经元和神经通路来提高攻击的效果