【李宏毅-强化学习笔记】p7、Sparse reward

最新推荐文章于 2024-05-22 18:04:37 发布

涛涛北京

最新推荐文章于 2024-05-22 18:04:37 发布

阅读量408

点赞数

分类专栏：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43522964/article/details/104296596

版权

首先sparse reward是什么意思呢？有很多情况下，我们做很多事是没有reward的，例如考研，我们每天看书、做习题然后不断的重复都没有奖励值，但是一旦考上了，就会有丰厚的奖励，这样总体来看，我们获得的奖励类似于：
　　　　　　　　　　　　　　　　　0,0,0，…0,0,100
这就称为稀疏奖励。

一、reward shaping（塑造）

想法就是：认为的设置一些reward来引导agent采取希望的action，还以考研为例，假如你做题目的时候，得了高分就奖励自己一份大餐，或者看一部电影这样。以好奇心网络来说明该方法：https://arxiv.org/abs/1705.05363
在这里插入图片描述
也就是说，现在的奖励有两部分，ICM的reward就是自己shape的reward，结构如下：

用ICM 的net去估一个动作，这个动作和实际的差别越大越好，但是带来的问题是，差别很大不一定使我们需要的，所以还要进一步改进。

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【李宏毅-强化学习笔记】p7、Sparse reward

首先sparse reward是什么意思呢？有很多情况下，我们做很多事是没有reward的，例如考研，我们每天看书、做习题然后不断的重复都没有奖励值，但是一旦考上了，就会有丰厚的奖励，这样总体来看，我们获得的奖励类似于：　　　　　　　　　　　　　　　　　0,0,0，…0,0,100这就称为稀疏奖励。一、reward shaping（塑造）想法就是：认为的设置一些reward来引导agent...
复制链接

扫一扫

专栏目录

涛涛北京 CSDN认证博客专家 CSDN认证企业博客

码龄6年

80: 原创

31万+: 周排名

203万+: 总排名

5万+: 访问

: 等级

1142: 积分

32: 粉丝

37: 获赞

6: 评论

140: 收藏

私信

关注

热门文章

分类专栏

XK 1篇
Spring 1篇
每天一道简单题 1篇
torch 3篇
pandas 5篇
笔记
shell 1篇
python 13篇
数据库 5篇
词源 2篇
机器学习 6篇
人生规划
leetcode 14篇
matplotlib 1篇
其他 1篇
NLP 3篇
机考刷题 2篇
数据结构 7篇
爬虫笔记 4篇
#David Silver 3篇
强化学习 9篇
知识图谱实战系列 3篇
Neo4j 2篇

最新评论

【李宏毅-强化学习笔记】p1-p2、PPO
m0_51703669: 假设分子是分母的两倍，那么假如我们现在用新的agent采集数据，那么τ可能会出现两次，所以就会被强化两次。也就是说，我们现在可以重复利用τ了我还是觉得这里没有解释清楚，就是这个点想了特别久它是怎么提现所谓重复的，能有更具体的过程吗
【李宏毅-强化学习笔记】p1-p2、PPO
Deep Learning小舟: 您写的是真的好！(^ ^)
【李宏毅-强化学习笔记】一、深度强化学习surface
binz98: 第二部分强化学习分类写反了
【David Silver-强化学习笔记】p2、马尔科夫模型
willowx: 终于看到一个不是纯粹搬运ppt上的内容。加入了自己思考的课堂笔记了。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。