Optimistic Curiosity Exploration and Conservative Exploitation with Linear Reward Shaping论文总结

hehedadaq

于 2023-03-07 17:23:28 发布

阅读量243

点赞数

分类专栏：论文阅读笔记论文翻译学习笔记文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/hehedadaq/article/details/129386815

版权

学习笔记同时被 3 个专栏收录

52 篇文章 1 订阅

订阅专栏

论文阅读笔记

22 篇文章 3 订阅

订阅专栏

论文翻译

7 篇文章 2 订阅

订阅专栏

--------------------Paper:0
1.Title: Optimistic Curiosity Exploration and Conservative Exploitation with Linear Reward Shaping
2.Authors: Yao Zhang, Tiancheng Lou, Hao Wu, Dong Yan, Cheng Wu, Shihao Zhang, Yiming Zhang
3.Affiliation: 1University of Cambridge; 2 Tencent RoboticsX; 3Hong Kong University of Science and Technology; 4 Tsinghua University; 5 IDEA; 6 University of California, Los Angeles
4.Keywords: Reward Shifting, Exploration, Exploitation, Deep Reinforcement Learning (DRL)
5.Url: http://arxiv.org/abs/2209.07288v2

6.Summary:
(1) 本文研究了基于值的深度强化学习中奖励变换的最简单形式，即线性奖励变换方法。本文的研究目的在于探究这种方法对于促进探索和利用有什么影响。
(2) 以前提出的方法旨在解决探索与利用的平衡问题，如基于计数、好奇心探索等等。这些方法有其局限性，而本文方法通过奖励函数进行简单的变换来实现探索与利用的平衡。本文的方法有别于以往方法是因为奖励变换不会改变最优策略，这意味着我们的方法可以在训练过程中鼓励探索，不会导致学习偏差。
(3) 本文将线性奖励变换方法应用于三类深度强化学习任务上：(S1) 离线强化学习，(S2) 在线连续控制，(S3) 单步离线的好奇心探索。本文还对不同深度强化学习任务的结果进行了测试。
(4) 本文展示了我们的方法在连续控制和离散控制任务上的效果，并分别称为“保守性利用”和“探究精神”。特别地，本文的方法取得了比通常的方法更好的学习效果。

7.Methods:
(1) 首先，文章提到了均衡探索和利用所面临的探索-利用困境，以及以前研究的各种探索思路，如计数方法、好奇心驱动方法等，但此类方法有着各自的局限性。因此，本文提出了一种基于线性奖励变换的简单方法，以实现探索和利用之间的平衡，探索更多状态和行动。

(2) 本文的方法通过线性奖励变换，在保证不改变最优策略的前提下，鼓励机器人在训练过程中探索更多潜在的状态和行动，从而避免学习中的偏差。可以应用于离线强化学习、在线控制和单步离线好奇探索这三大类深度强化学习任务中。

(3) 在本文的方法中，研究者使用了离线强化学习、在线连续控制以及单步离线好奇心探索任务，测试了不同深度强化学习任务的结果，并通过实验测试了本文方法的效果。

(4) 实现的具体方法包括：使用改变奖励函数的方法，连续控制任务中称为“保守性利用”，离散控制任务中称为“探究精神”，在实验中证明本文的探究方法比传统方法更有效。

hehedadaq

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Optimistic Curiosity Exploration and Conservative Exploitation with Linear Reward Shaping论文总结

(1) 首先，文章提到了均衡探索和利用所面临的探索-利用困境，以及以前研究的各种探索思路，如计数方法、好奇心驱动方法等，但此类方法有着各自的局限性。(4) 实现的具体方法包括：使用改变奖励函数的方法，连续控制任务中称为“保守性利用”，离散控制任务中称为“探究精神”，在实验中证明本文的探究方法比传统方法更有效。(3) 在本文的方法中，研究者使用了离线强化学习、在线连续控制以及单步离线好奇心探索任务，测试了不同深度强化学习任务的结果，并通过实验测试了本文方法的效果。
复制链接

扫一扫