【GAE】《High-Dimensional Continuous Control Using Generalized Advantage Estimation》译读笔记_high dimensional continuous control using generali-CSDN博客

本文链接：https://blog.csdn.net/songyuc/article/details/145368796

High-Dimensional Continuous Control Using Generalized Advantage Estimation

摘要

Policy gradient methods 在 reinforcement learning 中是一种具有吸引力的方法，因为它们直接优化累积奖励，并且可以很直接地与非线性 function approximators 如 neural networks 一起使用。其两个主要挑战是通常需要大量的样本，以及尽管输入数据具有非平稳性但难以获得稳定而持续的改进（improvement）。本文通过价值函数来解决第一个挑战：在引入一定偏差的代价下，利用了类似TD(λ)的优势函数的指数加权估计器，显著降低了策略梯度估计的方差。本文通过对策略和价值函数都使用 trust region optimization procedure 来解决第二个挑战，其中 the policy and the value function 都由神经网络表示。

本文方法在极具挑战性的 3D locomotion tasks 上产生了强有力的实证结果，用于双足和四足仿真机器人学习奔跑步态，以及训练双足机器人从地面躺姿状态开始自主站立的策略。与以往大量使用手工设计策略表示的研究不同，本文的神经网络策略（neural network policies）直接从原始运动学数据（kinematics）映射到关节扭矩输出（joint torques）。此算法完全 model-free，且针对 3D bipeds 学习任务所需的 amount of simulated experience，仅相当于现实时间的1-2周。