题目:基于策略约束与动作矫正的安全离线强化学习_刘少凡
相关概念
离线强化学习:将已有数据集放入经验回放池,并去掉在线强化学习算法探索与收集策略的过程。
分布漂移:在离线训练时,数据集中状态动作对的分布与训练阶段的策略根据给定状态输出的动作构成的状态动作对的分布之间一般存在差异的现象。
后果:会对值函数做出过高估计。
解决方法:
①批约束学习——对策略进行约束:约束目标策略的(s,a)分布使其接近于数据集中(s,a)的分布
②保守值函数学习——对值函数进行惩罚:将值函数的值作为正则化项加入损失函数
安全强化学习:
将问题定义为受限马尔科夫决策过程,考虑如何在智能体训练阶段降低安全风险,同时保证智能体的性能。置信域策略优化(trust region policy optimization,TRPO)和近端策略优化(proximal policy optimmization,PPO)是常见的连续控制强化学习算法。通过给 与 的优化目标增加安全约束,并使用拉格朗日法进行求解,可以得到对应的安全强化学习算法。
课程学习(curriculum learning):agent在一个指导者的监督下进行学习来防止违背安全约束。当agent开始做出危险行为时,它就会激活这个库中的某个重置控制器将agent重置到某个安全状态,以防止agent即将做出的危险行为。
安全评论家:其训练方式与状态动作值函数的训练方式类似,不过其估计出的并非长期的代价,而是当前策略在未来失败或者做出不安全决策的概率。
分层强化学习:
两种实现方式:高级策略从几个低层策略中选择最合适的策略来接管当前策略或为特定的低级策略设置子目标。本文采用的后者,即高级策略的目标是最大化agent所能得到的长期奖励,低级策略的目标是尽可能好的完成高级策略所制定的子目标。
研究痛点:
现有的基于批约束的离线强化学习算法无法在策略提升的同时兼顾分布漂移问题,其中扰动模型依赖于对扰动值的权重超参数的调节来控制算法在策略提升与缓解分布漂移问题之间的平衡。
解决方法:基于条件生成式对抗网络的批约束学习,在策略提升的同时约束智能体的决策服从于数据集的分布来环节分布漂移问题。