【GAE】《High-Dimensional Continuous Control Using Generalized Advantage Estimation》译读笔记

High-Dimensional Continuous Control Using Generalized Advantage Estimation

摘要

Policy gradient methods 在 reinforcement learning 中是一种具有吸引力的方法,因为它们直接优化累积奖励,并且可以很直接地与非线性 function approximators 如 neural networks 一起使用。其两个主要挑战是通常需要大量的样本,以及尽管输入数据具有非平稳性但难以获得稳定而持续的改进(improvement)。本文通过价值函数来解决第一个挑战:在引入一定偏差的代价下,利用了类似TD(λ)的优势函数的指数加权估计器,显著降低了策略梯度估计的方差。本文通过对策略和价值函数都使用 trust region optimization procedure 来解决第二个挑战,其中 the policy and the value function 都由神经网络表示。

本文方法在极具挑战性的 3D locomotion tasks 上产生了强有力的实证结果,用于双足和四足仿真机器人学习奔跑步态,以及训练双足机器人从地面躺姿状态开始自主站立的策略。与以往大量使用手工设计策略表示的研究不同,本文的神经网络策略(neural network policies)直接从原始运动学数据(kinematics)映射到关节扭矩输出(joint torques)。此算法完全 model-free,且针对 3D bipeds 学习任务所需的 amount of simulated experience,仅相当于现实时间的1-2周。

1 引言

强化学习中 typical problem formulation 是最大化策略的期望总奖励。一个主要的困难来源于行动间的长时间延迟及其对奖励的积极或消极影响;这个问题在强化学习文献(Minsky, 1961_AI; Sutton & Barto,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值