论文记录:Automatic Data Augmentation for Generalization in Reinforcement Learning

摘要:

Deep reinforcement learning (RL) agents often fail to generalize beyond their training environments. To alleviate this problem, recent work has proposed the use of data augmentation. However, different tasks tend to benefit from different types of augmentations and selecting the right one typically requires expert knowledge. In this paper, we introduce three approaches for automatically finding an effective augmentation for any RL task. These are combined with two novel regularization terms for the policy and value function, required to make the use of data augmentation theoretically sound for actor-critic algorithms. Our method achieves a new state-of-the-art on the Procgen benchmark and outperforms popular RL algorithms on DeepMind Control tasks with distractors. In addition, our agent learns policies and representations which are more robust to changes in the environment that are irrelevant for solving the task, such as the background. 

深度强化学习(RL)agent通常无法在其训练环境之外进行泛化。为了缓解这一问题,最近的工作提出了使用数据增强。然而,不同的任务往往受益于不同类型的增强,而选择正确的增强通常需要专业知识。在本文中,我们介绍了三种自动寻找任何RL任务的有效扩充的方法。这些与用于策略和价值函数的两个新的正则化术语相结合,所需的是使演员-批评者算法在理论上合理地使用数据增强。我们的方法在Procgen基准测试上达到了最新的水平,并在有干扰的DeepMind Control任务上超过了流行的RL算法。此外,我们的代理学习对环境变化更健壮的策略和表示,这些变化与解决任务无关,例如背景。实现:https://github.com/rraileanu/auto-drac.

问题

  • 对新环境的泛化仍然是深度强化学习(RL)的主要挑战。在这项工作中,我们重点研究了数据增强在RL中的使用。

  • 对数据增强简单直白应用可能导致标准RL算法的理论和实践问题(比如效果更差)

  • 目前在RL中使用的数据增强要么依赖于专家知识来选择适当的增强,要么单独评估大量转换以找到最佳转换

  • 对不同的任务具有良好效果的增强方法往往是不同的。

贡献

  • 引入了一种原则性的方法来使用参与者-批评者算法来使用数据增强
  • 提出了一种实用的方法来自动选择RL设置中的有效增强ÿ
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值