Efficient Offline Reinforcement Learning With Relaxed Conservatism
题目:具有放松保守性的高效离线强化学习
作者:Longyang Huang; Botao Dong; Weidong Zhang
摘要
离线强化学习(RL)旨在从不与环境交互的静态离线数据集中学习最优策略。然而,现有离线RL方法的理论理解需要进一步研究,其中学习到的Q函数和策略的保守性是一个主要问题。在本文中,我们提出了一个简单高效的放松保守性(ORL-RC)框架,通过学习在已学习策略下接近真实Q函数的Q函数来解决这一问题。分析了离线RL方法中学习到的Q函数和策略的保守性。分析结果支持保守性能导致策略性能下降的观点。我们建立了所提出的ORL-RC的收敛性结果,以及有和没有采样误差的学习到的Q函数的界限,分别表明通过执行保守的策略改进可以减少学习到的Q函数和真实Q函数之间的差距。提出了ORL-RC的实际实现,并且在D4RL基准测试上的实验结果表明,ORL-RC展现出卓越的性能,显著优于现有的最先进离线RL方法。