High-Dimensional Continuous Control Using Generalized Advantage Estimation
摘要
Policy gradient methods 在 reinforcement learning 中是一种具有吸引力的方法,因为它们直接优化累积奖励,并且可以很直接地与非线性 function approximators 如 neural networks 一起使用。其两个主要挑战是通常需要大量的样本,以及尽管输入数据具有非平稳性但难以获得稳定而持续的改进(improvement)。本文通过价值函数来解决第一个挑战:在引入一定偏差的代价下,利用了类似TD(λ)的优势函数的指数加权估计器,显著降低了策略梯度估计的方差。本文通过对策略和价值函数都使用 trust region optimization procedure 来解决第二个挑战,其中 the policy and the value function 都由神经网络表示。
本文方法在极具挑战性的 3D locomotion tasks 上产生了强有力的实证结果,用于双足和四足仿真机器人学习奔跑步态,以及训练双足机器人从地面躺姿状态开始自主站立的策略。与以往大量使用手工设计策略表示的研究不同,本文的神经网络策略(neural network policies)直接从原始运动学数据(kinematics)映射到关节扭矩输出(joint torques)。此算法完全 model-free,且针对 3D bipeds 学习任务所需的 amount of simulated experience,仅相当于现实时间的1-2周。
1 引言
强化学习中 typical problem formulation 是最大化策略的期望总奖励。一个主要的困难来源于行动间的长时间延迟及其对奖励的积极或消极影响;这个问题在强化学习文献(Minsky, 1961_AI; Sutton & Barto,