这篇题为《Exponentially Weighted Imitation Learning for Batched Historical Data》的论文提出了一种新的方法,用于在仅有批量历史轨迹的情况下学习深度策略,而无需访问模拟器或环境预测器。本文解决的主要挑战是在仅有先前记录的数据的情况下进行策略学习,这在现实世界应用中非常常见。提出的方法称为单调优势重加权模仿学习(MARWIL),可以应用于包含离散和连续动作空间的复杂问题。
论文的主要内容:
-
问题定义:作者专注于使用由未知或不同策略生成的批量数据来学习策略。与典型的强化学习场景不同,学习者无法通过进一步的数据收集或模拟来获得环境信息。
-
提出的方法:论文的主要贡献是MARWIL方法,该方法根据动作的优势对其进行重新加权,优先模仿效果更好的动作。与传统的模仿学习(所有动作一视同仁)相比,这种方法能够学习到更好的策略。
-
理论保证:作者提供了理论分析,证明MARWIL方法具有策略改进的下界,这意味着在某些条件下,学习到的策略至少不会比生成历史数据的行为策略差。
-
该方法的优势:
- 该方法无需知道生成数据的行为策略,因此适用于生成策略未知的情况。
- 方法与深度函数逼近(如神经网络)兼容,适合处理高维状态和动作空间。
- MARWIL在离散和连续动作空间中表现良好,这在复杂的现实问题中很常见。
-
实验验证:论文在多个环境中进行了实验验证,包括半场进攻(HFO)、TORCS赛车模拟器以及中国流行的多人在线战术竞技游戏《王者荣耀》。在这些环境中,MARWIL方法优于传统方法,证明了它在批量、离线数据上的有效性。
问题解释:
在典型的强化学习(RL)场景中,学习者(或智能体)可以与环境进行交互,并通过这些交互生成新的数据来改进策略。换句话说,智能体可以通过反复试验,从环境中不断收集数据,并根据这些数据调整行为,从而逐渐优化策略。这种方式下,学习者拥有一个“环境模拟器”或“环境预测器”,可以随时测试不同的策略,获得反馈并进一步改进。
然而,在某些现实世界的问题中,学习者并不能与环境进行交互,数据的生成过程是事先固定的。举例来说,当我们只能访问历史数据(如游戏记录、患者的医疗记录或其他过去的操作数据)时,新的数据无法通过主动探索产生。此时,我们面临的就是批量数据(Batched Data)学习问题。在这种情况下,策略的学习只能基于已有的这些历史数据,而无法通过与环境的交互获得新的信息,这大大增加了学习难度。
这种问题的另一个复杂性在于:历史数据往往是由不同的行为策略生成的。也就是说,数据可能是由多个不同的策略或智能体执行过程中产生的,我们并不知道这些策略是如何工作的(称为未知策略)。由于这些策略生成的数据可能质量参差不齐,因此直接使用所有数据进行学习可能会导致策略退化,甚至学不到有效的策略。
MARWIL提出的解决方案是通过单调优势重加权的方式,赋予有利的动作更高的权重,逐渐倾向于模仿产生优良结果的行为,而弱化不利行为的影响。这种方法允许智能体在不清楚原始行为策略的情况下,从历史数据中学到一个相对更优的策略。
所以*“使用由未知或不同策略生成的批量数据来学习策略”*是指在没有与环境交互的能力或无法生成新数据的情况下,基于已有的历史数据进行策略学习。而与传统强化学习不同的是,这里无法通过进一步的试探与交互来获取更多的环境反馈信息,因此只能依赖现有数据来优化策略,这对算法的稳健性和效率提出了更高的要求。