【李宏毅-强化学习笔记】p7、Sparse reward

首先sparse reward是什么意思呢?有很多情况下,我们做很多事是没有reward的,例如考研,我们每天看书、做习题然后不断的重复都没有奖励值,但是一旦考上了,就会有丰厚的奖励,这样总体来看,我们获得的奖励类似于:
                 0,0,0,…0,0,100
这就称为稀疏奖励。

一、reward shaping(塑造)

想法就是:认为的设置一些reward来引导agent采取希望的action,还以考研为例,假如你做题目的时候,得了高分就奖励自己一份大餐,或者看一部电影这样。以好奇心网络来说明该方法:https://arxiv.org/abs/1705.05363
在这里插入图片描述
也就是说,现在的奖励有两部分,ICM的reward就是自己shape的reward,结构如下:
在这里插入图片描述
用ICM 的net去估一个动作,这个动作和实际的差别越大越好,但是带来的问题是,差别很大不一定使我们需要的,所以还要进一步改进。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值