论文学习:Decoupling Value and Policy for Generalization in Reinforcement Learning(强化学习中泛化的解耦价值和策略)

摘要:

        Standard deep reinforcement learning algorithms use a shared representation for the policy and value function, especially when training directly from images. However, we argue that more information is needed to accurately estimate the value function than to learn the optimal policy. Consequently, the use of a shared representation for the policy and value function can lead to overfitting. To alleviate this problem, we propose two approaches which are combined to create IDAAC: Invariant Decoupled Advantage Actor-Critic. First, IDAAC decouples the optimization of the policy and value function, using separate networks to model them. Second, it introduces an auxiliary loss which encourages the representation to be invariant to task-irrelevant properties of the environment. IDAAC shows good generalization to unseen environments, achieving a new state-of-the-art on the Procgen benchmark and outperforming popular methods on DeepMind Control tasks with distractors. Our implementation is available at https://github.com/rraileanu/idaac.

        标准的深度强化学习算法使用策略和值函数的共享表示,特别是在直接从图像进行训练时。然而,我们认为,与学习最优策略相比,需要更多的信息来准确估计价值函数。因此,对策略和价值函数使用共享表示可能会导致过度匹配。为了缓解这一问题,我们提出了两种方法相结合来创建IDAAC:不变解耦优势ActorCritic。首先,IDAAC将政策函数和价值函数的优化解耦,使用单独的网络对它们进行建模。其次,它引入了辅助损失,这鼓励了表征对于与环境无关的属性来说是不变的。IDAAC对看不见的环境表现出良好的泛化能力,在Procgen基准测试中实现了新的最先进水平,并在带有干扰项的DeepMind Control任务上表现优于流行的方法。我们的实现可在https://github.com/rraeanu/idaac上获得。

问题背景:

  • 标准的RL代理记住的是特定的轨迹,而不是学习可转移的技能。

  • 本文中,我们考虑在相对较少的此类实例上进行训练后,将其泛化到过程生成环境的不可见实例(或级别)的问题。虽然高级目标是相同的,但不同实体的背景、动态、布局以及位置、形状和颜色因实例而异。

  • 对于标准的强化学习来说,表示特征用于同时学习值函数和策略函数,但实际上估计值函数需要的信息比估计策略函数更多,即估计值函数时,除了需要估计策略函数的信息以外,还需要特定于实例的特征,因此这种方法获得的策略函数不利于推广、泛化性更差。(策略-价值表征不对称现象)

    • 这种特定于实例的特征比如可能是下图中的背景颜色,捕获这种虚假关联可能会导致策略不能很好地推广到新实例

    • 在部分观察到的程序生成的环境中,准确预测值函数可能需要特定于实例的特征,而这些特征对于学习最优策略并不是必需的。(良好的状态表示即捕获了在环境中操作以解决任务所需的最小特征集)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值