论文分享:DARC

#[2021 ICLR]Off-Dynamics Reinforcement Learning:Training for Transfer with Domain Classifiers 论文分享记录
摘要由CSDN通过智能技术生成

 摘要内容及译文:

        We propose a simple, practical, and intuitive approach for domain adaptation in reinforcement learning. Our approach stems from the idea that the agent’s experience in the source domain should look similar to its experience in the target domain. Building off of a probabilistic view of RL, we achieve this goal by compensating for the difference in dynamics by modifying the reward function. This modified reward function is simple to estimate by learning auxiliary classifiers that distinguish source-domain transitions from target-domain transitions. Intuitively, the agent is penalized for transitions that would indicate that the agent is interacting with the source domain, rather than the target domain. Formally, we prove that applying our method in the source domain is guaranteed to obtain a near-optimal policy for the target domain, provided that the source and target domains satisfy a lightweight assumption. Our approach is applicable to domains with continuous states and actions and does not require learning an explicit model of the dynamics. On discrete and continuous control tasks, we illustrate the mechanics of our approach and demonstrate its scalability to high-dimensional tasks.

        我们提出了一种简单、实用、直观的强化学习领域自适应方法。我们的方法源于这样一个想法,即代理在源域中的经验应该看起来类似于它在目标域中的经验。基于RL的概率视图,我们通过修改奖励函数来补偿动力学上的差异,从而实现了这一目标。通过学习区分源域转换和目标域转换的辅助分类器,这种修改的奖励函数很容易估计。直观地说,代理会因为指示代理与源域交互而不是与目标域交互的转换而受到惩罚。形式上,我们证明了在源域和目标域满足轻量级假设的情况下,在源域中应用我们的方法可以保证获得目标域的近最优策略。我们的方法适用于具有连续状态和动作的领域,并且不需要学习动力学的显式模型。对于离散和连续的控制任务,我们说明了我们的方法的机制,并展示了它对高维任务的可扩展性。

问题

       1. 强化学习(RL)可以通过真实世界的反复试验自动获取复杂的行为策略。然而,我们想要学习策略的许多领域不适合这种反复学习,因为错误代价太高

        2. 今天的RL算法需要在目标领域有大量的经验。但是,对于许多任务,我们可能可以访问不同但结构相似的源域。虽然源域与目标域具有不同的动态,但收集源域的经验要便宜得多。

        3.为了解决12,RL问题需要某种类型的迁移学习,其中使用更安全的源域,如模拟器,来训练策略,然后该策略可以在目标域中有效地发挥作用

        4.在源域中有效的策略可能在目标域中无效(因为源域和目标域存在动力学(dynamic system)的差异),因此问题转变为将策略从一个域转移到另一个域,即迁移学习中的域适应(Domain Adaptation)应用于RL问题。

论文贡献

        提出了一种领域自适应RL动态变化的算法,该算法基于通过修改奖励函数来补偿动态差异的思想。我们将该算法称为带分类器奖励的域自适应,简称DARC。

        1.DARC不估计转移概率,而是使用一对分类器修改奖励函数。(通过学习区分源域转换和目标域转换的辅助分类器,这种改进的奖励函数很容易估计。因为我们的方法学习的是分类器,而不是动力学模型,所以我们预计它比基于模型的方法更好地处理高维任务,这一猜测得到了对111维Ant任务的实验的支持。)

        2.与先前基于类似直觉的工作(Koos等人,2012;Wulfmeier等人,2007b)不同,我们工作的一个关键贡献是正式保证我们的方法为目标域产生接近最优的策略,形式化地分析了我们的方法为目标域产生接近最优策略的条件。。(需要看一下他们干了什么)

        3.在一系列离散和连续的控制任务上,我们都说明了我们的方法的机制,并展示了它对更高维任务的可扩展性。

相关工作

  • 域适应
    • 作为机器学习的一个方向,迁移学习中源域和目标域可能是不一样的,源任务和目标任务也可能是不一样的。
    • (DA)领域自适应(Domain Adaptation)是迁移学习(Transfer Learning)的一种,Domain Adaptation是一种源任务和目标任务一样,但是源域和目标域的数据分布不一样,并且源域有大量的标记好的样本,目标域则没有(或者只有非常少的)有标记的样本的迁移学习方法。(这与本文中的需求一致)

    • <
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值