什么是Sparse Reward

最新推荐文章于 2022-10-17 12:07:27 发布

不一样的烟火___

最新推荐文章于 2022-10-17 12:07:27 发布

阅读量1.4k

点赞数

分类专栏： RL

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/int1282951082/article/details/96429652

版权

RL 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

agent学习的过程中，常常无法及时获得回报。就像家长让小朋友写作业，小朋友可能觉得这个是负面的反馈而不去写作业（做作业让我觉得很痛苦qwq），而没有意识到以后会获得的巨大回报：写完作业后成绩提高，考上好大学，成为高富帅，从此走向巅峰赢取白富美...

这个一开始的暂时的小的reward 就叫 Sparse Reward

如何让agent在Sparse Reward 中拥有更好的学习表现？

1.“写完作业就给糖吃”

把关键的一些动作强制地定义为正的reward，这样agent就不会反感这一学习行为，从而一步步走到最大的reward

2.“兴趣是最好的老师 ” Curiosity Module

尽管是一些风吹草动，很难让agent得到一些有用的反馈。这时让agent自己预测这个动作将来的reward，这样也能达到最终的效果。让agent预测做一个动作的未来的reward，从而使agent有兴趣的学习。

3.“制定学习计划” Curriculum Learning

人来设定agent的学习顺序，使agent以从易到难的顺序学习

4.阶层式强化学习 Hierarchical RL

由上层agent提出愿景，由最下层agent来执行动作

不一样的烟火___

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
什么是Sparse Reward

agent学习的过程中，常常无法及时获得回报。就像家长让小朋友写作业，小朋友可能觉得这个是负面的反馈而不去写作业（做作业让我觉得很痛苦qwq），而没有意识到以后会获得的巨大回报：写完作业后成绩提高，考上好大学，成为高富帅，从此走向巅峰赢取白富美...这个一开始的暂时的小的reward 就叫 Sparse Reward如何让agent在Sparse Reward 中拥有更好的学习表现？...
复制链接

扫一扫

专栏目录

不一样的烟火___ CSDN认证博客专家 CSDN认证企业博客

码龄8年

55: 原创

7万+: 周排名

155万+: 总排名

7万+: 访问

: 等级

1318: 积分

42: 粉丝

71: 获赞

24: 评论

239: 收藏

私信

关注

热门文章

分类专栏

oj 38篇
C++ 1篇
JAVA 1篇
Linux 10篇
ML 2篇
RL 1篇

最新评论

yes命令一直输出y滚屏
m0_74878980: 我后来解决了，回车不要点太多下，刚好出现“Do you accept the license terms?”的时候，输入yes，这时候是绿色的字体，这样就可以了。（我自己是这样的，不知道大家的行不行）
yes命令一直输出y滚屏
m0_74878980: 这个怎么解决呢？
yes命令一直输出y滚屏
麻瓜正在学习mofa: 这个怎么解决呢？
配置Deepmind_lab环境 ubuntu18.4
噗囧rzω: 你好，请问一下为什么现在lab/bazel里面已经不存在python.BUILD文件
配置Deepmind_lab环境 ubuntu18.4
GYF_99: 求问咋解决的？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

目录

分类专栏

oj 38篇
C++ 1篇
JAVA 1篇
Linux 10篇
ML 2篇
RL 1篇

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。