在Fetch-task中HER不同奖励函数设置对成功率的影响探究实验

最新推荐文章于 2024-04-29 14:16:54 发布

hehedadaq

最新推荐文章于 2024-04-29 14:16:54 发布

阅读量501

点赞数 1

分类专栏：可视化 DRLib Spinning UP 文章标签： HER 奖励函数 reward

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hehedadaq/article/details/116032010

版权

可视化同时被 3 个专栏收录

21 篇文章 4 订阅

订阅专栏

16 篇文章 9 订阅

订阅专栏

13 篇文章 5 订阅

订阅专栏

在Fetch-task中HER不同奖励函数设置对成功率的影响探究实验

文章目录

在Fetch-task中HER不同奖励函数设置对成功率的影响探究实验

前言：

因为我一直在做稀疏奖励相关的探索，所以对HER的稀疏奖励函数设置，充满了好奇，特别想知道，他的奖励函数非得设置成{-1, 0}吗？即任务没有完成的所有step奖励为-1，任务完成给奖励0.

设置成其他的，会不会也会有比较好的效果？这是当时OpenAI他们是随机选的，还是因为其他环境都是这样，所以老规矩也是这样。还是网格搜索出来的结果？

我没有查到他们是怎么确定的这个{-1, 0}，我只是看到很多环境他们都是如此设置，难道说这个{-1, 0}本身就具有通用性？

但是架不住我的好奇，我实在是想知道，不同的奖励函数对结果的影响，由于之前我没有实现自动调参的功能，每次跑一组实验，需要手动点一次，对于这种大规模调参实验几乎是要命的事儿。

调用https://github.com/kaixindelele/DRLib/tree/main/tune_exps的脚本。

我测试了如下的参数组：

pos_list = [0.0, 0.1, 1.0, 2.5, 10.0]
nag_list = [0.0, -0.1, -1.0, -2.0, -10.0]

其中pos即positive的意思，替代原来的0，我们认为是正的奖励；
nag即nagtive的意思，替代原来-1的效果，可以简单认为是负的惩罚；

每组超参，分别在pick-and-place和push两个task中做了测试；

一共五十组实验。

超参数设置和原始HER论文的一致，唯一变化的是奖励函数；随机种子都是一样的！

最终衡量性能仍然用成功率success-rate来表示；

episode-reward-图：

批量plot了episode-reward图，发现实验太多了，根本无法看出什么规律。

pick-and-place：

在这里插入图片描述

push：

在这里插入图片描述

三维性能统计图：

为了更直观的对比不同的超参，对成功率的影响，我决定，将最终的成功率求平均后，画成一个柱状图！而且是3D的柱状图，一张图就可以展示5*5组实验结果；

pick-and-place：

在这里插入图片描述

push：

在这里插入图片描述
首先平面轴nag和pos是上面的定义；

纵轴是性能-成功率；

横轴的标签值是具体的标签，但是间距是被统一成了固定值（为了看起来舒服）；

每一条横线，每一条竖线都是一组严格的对比实验。

简单的结论：

两个任务的超参结果并不一致；
{0, 10}好像是比较好的一组超参；{-1, 0}不是最好的；{0, 1}和{-1, 0}差不太多；
不知道还能有什么其他有意思的发现，分享出来供大家参考；

plot的脚本需要的话，可以评论区见~

联系方式：

ps: 欢迎做强化的同学加群一起学习：

深度强化学习-DRL：799378128

欢迎关注知乎帐号：未入门的炼丹学徒

CSDN帐号：https://blog.csdn.net/hehedadaq

极简spinup+HER+PER代码实现：https://github.com/kaixindelele/DRLib

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
1
评论
在Fetch-task中HER不同奖励函数设置对成功率的影响探究实验

在Fetch-task中HER不同奖励函数设置对成功率的影响探究实验文章目录在Fetch-task中HER不同奖励函数设置对成功率的影响探究实验前言：episode-reward-图：pick-and-place：push：三维性能统计图：pick-and-place：push：简单的结论：联系方式：前言：因为我一直在做稀疏奖励相关的探索，所以对HER的稀疏奖励函数设置，充满了好奇，特别想知道，他的奖励函数非得设置成{-1, 0}吗？即任务没有完成的所有step奖励为-1，任务完成给奖励0.设置成其
复制链接

扫一扫

专栏目录

hehedadaq CSDN认证博客专家 CSDN认证企业博客

码龄9年

188: 原创

2万+: 周排名

1万+: 总排名

92万+: 访问

: 等级

7410: 积分

1136: 粉丝

1347: 获赞

441: 评论

5640: 收藏

私信

关注

热门文章

分类专栏

最新评论

FunAudioLLM-SenseVoice+CosyVoice-论文阅读笔记
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
【一文弄懂】张正友标定法-完整学习笔记-从原理到实战
icecream_ou_: 按照3张照片n=3来算，就有6个方程，但内参矩阵A中只有5个未知数，应该要最小二乘处理，为了简化处理，添加一个λ参数这样就刚好6个方程6个未知数来方便求初值了，看作者给的λ求解结果其实就是一个中间过程变量，并不会改变最后结果。（纯属瞎说狗头保命）
pycharm远程连接服务器完整教程
LJYturbor: 请问一下我连接上服务器以后按那个重命名没有跳出来配置文件呀？
【一文弄懂】张正友标定法-完整学习笔记-从原理到实战
llllllilili: 请问 M里面为什么会多一个lamda呢
基于OpenCv的机器人手眼标定（九点标定法）《转载》
Schuke_w: 这个函数现在被取代了，新的函数得到的结果精度差的有点多

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

hehedadaq 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。