Improving Sample Efficiency In Model-Free Reinforcement Learning From Images 论文翻译

该论文研究了如何提高基于图像的无模型强化学习的样本效率,发现像素重构误差对学习表示至关重要。提出了一种端到端的异策AC算法,结合自编码器,实现了与最先进的模型基线相当的性能,解决了直接使用像素输入导致的训练缓慢问题。
摘要由CSDN通过智能技术生成

论文原文链接

“Improving Sample Efficiency In Model-Free Reinforcement Learning From Images”(2019 arxiv)

摘要

利用Model-Free的强化学习方法训练一个直接从高维图像数据到控制策略的智能体已经被证明非常困难。智能体在学习控制策略的同时还需要学习状态的隐表示(latent representation)。利用稀疏的reward来拟合一个高维度的encoder不仅非常地采样低效(sample inefficient),并且可能导致收敛到次优解。有两种方法来提升采样效率,一是提取与任务相关的特征,二是使用异策(off policy)算法。我们剖析了多种优秀的隐特征(latent feature)学习方法后,得出了一个结论:图像的重构误差是基于图像的强化学习非常必要的一个组成部分。基于这个发现,我们开发了一种能够端到端训练的异策AC(off-policy actor critic)算法,包含一个辅助的解码器,并且在state-of-art的model-free和model-based算法中达到了相似的性能。我们开源了代码。

INTRODUCTION

相机是非常方便且廉价的设备,能够获取环境的状态信息,尤其是复杂、非结构化的环境。通常需要得到在这些环境中的底层动力学状态才能进行有效的控制。因此,开发一种有效的利用像素作为输入的强化学习方法,将会为许多的真实世界中的问题提供解决方案。
如何仅适用稀疏的反馈信号来有效地学习一个从像素到适合控制的状态表示成为我们的挑战。虽然深度卷积网络能够学到很好的表示,但是它们需要非常庞大的训练数据。正如现有的强化学习方法已经存在非常严重的采样复杂度问题,直接使用像素输入将会使得训练非常地慢。例如:Atari, DeepMind Control 需要上亿训练步数,这在很多应用中是不切实际的,尤其是在机器人领域。
一种很自然的解决办法是在其中添加无监督的辅助任务,来提高采样效率。最简单的方法就是利用一个用重建误差来训练的自编码器。先前的工作已经尝试利用自编码器来从像素中学习状态的表示,通常是一种两步走的形式,首先训练自编码器,随后利用自编码器提供的状态表示来进行策略的训练。这样的训练方法相比于交替训练更加地稳定,但是会产生次优的策略。其他的一些工作利用额外的重构误差进行了同策的model-free end-to-end的训练。
我们重新来研究在model-free的强化学习中添加自编码器的方法,但是集中研究异策算法。我们进行了一系列细致(careful)的实验来理解为什么之前的算法不能够很好地工作。我们发现像素的重构误差对学习到一个好的表示至关重要,尤其是在端到端训练的情况下。基于这些发现,我们提出了一种简单的,端到端训练的,基于自编码器的异策算法。我们的方法是第一个能够同时,稳定且高效地训练状态表示和策略的model-free off-policy 算法。
当然,一些当前state-of-art的model-based方法在像素任务上相比model-free方法已经展现出了超人的采样效率。但是我们发现我们的model-free,off-policy,autoencoder-based方法尽管更加简单并且不需要一个环境模型,也能够达到同样的性能,这缩小了model-free和model-based算法性能在基于图像的强化学习任务上的距离。
本文共有三个主要的贡献:1、说明了在model-free off-policy的强化学习算法中添加额外的重构误差能够使其在一系列连续控制任务上获得与state-of-art model-based 算法相匹敌的性能;2、理解将自编码器添加到model-free off-policy算法中的关键问题;3、一个开源的Pytorch实现。

相关工作

背景

第一段马尔科夫过程 略。
第二段 略,主要说明本文方法基于Soft Actor-Critic(SAC, RAIL实验室18年提出)算法,是一种DRL中的最大熵框架,在最大化reward的同时,也最大化策略的熵,以鼓励策略去探索。
第三、四段 略,主要说明自编码器、变分自编码器、β-变分自编码器的原理,及其与RL算法的结合

剖析利用 β \beta β-变分自编码器进行状态表示学习的方法

在本章中我们将系统地探索model-free off-policy RL算法是如何直接从像素完成训练的。首先我们先说明了SAC算法在像素输入时极大的性能损失(Section 4.2)。这一结果驱动我们去寻找不

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值