【论文阅读】Robustness in Reinforcement Learning

最新推荐文章于 2025-04-27 20:08:34 发布

Luminous_song

最新推荐文章于 2025-04-27 20:08:34 发布

阅读量1.1k

点赞数 1

文章标签：论文阅读

本文链接：https://blog.csdn.net/Luminous_song/article/details/130328329

版权

文章探讨了鲁棒强化学习(RL)如何应对环境不确定性，包括状态观测、动作执行和环境模型的不确定性。鲁棒RL旨在确保策略在面对各种不确定性或对抗性攻击时仍能保持性能。方法包括对抗性训练、放松训练、正则化、约束优化以及模型估计，以提高策略在真实世界环境中的稳健性和安全性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

原文为 Trustworthy Reinforcement Learning Against Intrinsic Vulnerabilities: Robustness, Safety, and Generalizability，是 2022 年 CMU 发表的综述文章。

本文主要关注文章的第二部分即鲁棒性

1. 概述

鲁棒性主要解决的问题是提高策略在面对不确定性或者对抗性攻击场景时的最差性能。我们在训练策略的时候通常是在模拟环境，但执行时会在真实环境中，真实环境往往存在参数不同从而导致策略执行出现问题，此时鲁棒性就是避免造成灾难故障的重要性能。

2. 鲁棒性问题定义

除了常规RL的MDP过程，还定义了不确定变量U，U可以是状态变量S、动作变量A、奖励函数R或者转换函数P，鲁棒性RL算法旨在找到一种策略，使不确定变量U的最差性能最大化
$\max_{\pi}\min_{U\in F_u} J_M(\pi,U)$
$J_M(\pi,U)$ 代表期望累积回报

2.1 对于不确定的观测状态

大多数鲁棒RL方法旨在鲁棒处理观测状态和实际状态之间的不匹配。在实际环境中，由于传感器错误或传感器容量有限，会出现，一般来说，实际状态和状态观察之间的不匹配会降低策略的性能，甚至可能在安全关键情况下导致灾难性故障。实际观测状态为 $s_t$ ，但得到的观测状态为 $\hat s$ ，鲁棒性RL在观测状态下得到动作a，在实际状态下通过转换函数得到下一个状态。

在测试阶段，攻击者可以通过引诱目标agent进入设定的目标对抗状态 $s^{adv}$ 来破坏性能，或者引诱agent进行错误的动作选择即 $\pi(\hat s)\ne \pi(s)$
在这里插入图片描述

2.2 对于不确定的动作状态

针对行动不确定性的鲁棒RL侧重于RL代理生成的行动与执行的行动之间的差异，也就是由于来自现实世界中的致动器噪声、有限的功率范围或致动器故障，导致智能体实际动作与策略产生动作产生差异即 $\hat a = v(\pi(s))$ 。鲁棒RL要在存在这种差异的情况下，使策略的最差性能保持在较高水平。

2.3 对于不确定转移函数和奖励函数

由于训练和测试环境存在差异从而导致转换函数和奖励函数具有差异，在这种情况下 $U = (P, r) 或者 U = r$

环境差异
对于环境差异，分布鲁棒性分布对转换过程和奖励的分布信息进行编码，来平衡性能和鲁棒性，分布式鲁棒MDP公式可以通过平衡性能和最坏情况下的性能来产生不那么保守的策略

3. 鲁棒性RL方法

3.1 与对手进行鲁棒训练

对抗性训练是传统监督学习中最有效的防御方法之一。在本小节中，我们将讨论一种类型的对抗性训练策略，即用局部对抗性攻击获得的损失的下界（累积奖励的上界）来训练RL代理。

State Observation
对于观测状态的不确定性，直接向RL代理的状态向量或者梯度更新中添加扰动，对抗性训练可以是对手与agent代理并行训练，也可以是预先训练好的对手
Action
目前提出了两个针对动作不确定性的鲁棒性标准：PR-MDP和NR-MDP分别考虑了偶尔的对抗性动作和持续的对抗性动作
Transitions and rewards
RARL是目前处理环境不确定性最流行的框架之一，RARL将环境的差异设定为意外玩家施加的额外干扰，提出了交替优化对手和agent的策略，直到收敛。此外还有ARPL方法，利用自然发生的对抗性场景学习来获得策略的鲁棒性