首先sparse reward是什么意思呢?有很多情况下,我们做很多事是没有reward的,例如考研,我们每天看书、做习题然后不断的重复都没有奖励值,但是一旦考上了,就会有丰厚的奖励,这样总体来看,我们获得的奖励类似于:
0,0,0,…0,0,100
这就称为稀疏奖励。
一、reward shaping(塑造)
想法就是:认为的设置一些reward来引导agent采取希望的action,还以考研为例,假如你做题目的时候,得了高分就奖励自己一份大餐,或者看一部电影这样。以好奇心网络来说明该方法:https://arxiv.org/abs/1705.05363
也就是说,现在的奖励有两部分,ICM的reward就是自己shape的reward,结构如下:
用ICM 的net去估一个动作,这个动作和实际的差别越大越好,但是带来的问题是,差别很大不一定使我们需要的,所以还要进一步改进。