Optimistic Curiosity Exploration and Conservative Exploitation with Linear Reward Shaping论文总结

--------------------Paper:0
1.Title: Optimistic Curiosity Exploration and Conservative Exploitation with Linear Reward Shaping
2.Authors: Yao Zhang, Tiancheng Lou, Hao Wu, Dong Yan, Cheng Wu, Shihao Zhang, Yiming Zhang
3.Affiliation: 1University of Cambridge; 2 Tencent RoboticsX; 3Hong Kong University of Science and Technology; 4 Tsinghua University; 5 IDEA; 6 University of California, Los Angeles
4.Keywords: Reward Shifting, Exploration, Exploitation, Deep Reinforcement Learning (DRL)
5.Url: http://arxiv.org/abs/2209.07288v2

6.Summary:
(1) 本文研究了基于值的深度强化学习中奖励变换的最简单形式,即线性奖励变换方法。本文的研究目的在于探究这种方法对于促进探索和利用有什么影响。
(2) 以前提出的方法旨在解决探索与利用的平衡问题,如基于计数、好奇心探索等等。这些方法有其局限性,而本文方法通过奖励函数进行简单的变换来实现探索与利用的平衡。本文的方法有别于以往方法是因为奖励变换不会改变最优策略,这意味着我们的方法可以在训练过程中鼓励探索,不会导致 学习偏差。
(3) 本文将线性奖励变换方法应用于三类深度强化学习任务上:(S1) 离线强化学习,(S2) 在线连续控制,(S3) 单步离线的好奇心探索。本文还对不同深度强化学习任务的结果进行了测试。
(4) 本文展示了我们的方法在连续控制和离散控制任务上的效果,并分别称为“保守性利用”和“探究精神”。特别地,本文的方法取得了比通常的方法更好的学习效果。

7.Methods:
(1) 首先,文章提到了均衡探索和利用所面临的探索-利用困境,以及以前研究的各种探索思路,如计数方法、好奇心驱动方法等,但此类方法有着各自的局限性。因此,本文提出了一种基于线性奖励变换的简单方法,以实现探索和利用之间的平衡,探索更多状态和行动。

(2) 本文的方法通过线性奖励变换,在保证不改变最优策略的前提下,鼓励机器人在训练过程中探索更多潜在的状态和行动,从而避免学习中的偏差。可以应用于离线强化学习、在线控制和单步离线好奇探索这三大类深度强化学习任务中。

(3) 在本文的方法中,研究者使用了离线强化学习、在线连续控制以及单步离线好奇心探索任务,测试了不同深度强化学习任务的结果,并通过实验测试了本文方法的效果。

(4) 实现的具体方法包括:使用改变奖励函数的方法,连续控制任务中称为“保守性利用”,离散控制任务中称为“探究精神”,在实验中证明本文的探究方法比传统方法更有效。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

hehedadaq

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值