狗都能看懂的Sparse Reward的讲解_强化学习agent摆烂-CSDN博客

本文链接：https://blog.csdn.net/weixin_42392454/article/details/140798117

Sparse Reward

现实中有很多任务是没办法获得reward，例如打网球。只有在打到网球，并且有效得分后才能的得到reward。这种任务是sparse reward（稀疏的奖励）的。现实生活中，有很多这样任务。但是作为人类，在学习这些任务的时候，是非常迅速的，能在很短的时间学会这个任务。所以我们需要模仿人类的学习机制，去优化sparse reward场景的任务。

Reward Shaping

人为设计奖励，有时候本身任务的reward设计拿来直接训练用不是很合。比如打网球，它的规则是为了简化比赛的，而我们为了训练一个会打网球的人。是不会一上来就让他打比赛的。我们会让他先学习如何挥拍，如何击打球，怎么打到对面去，然后再得分，循序渐进。那我们如果要训练一个打网球的agent时，就可以人为设计奖励，比如多移动可以给一点reward，向球跑可以给多一点reward，有挥拍动作给reward。在训练到后期的时候，慢慢修改reward规则，更严格一些，要向球跑加击打动作了才有高reward等。

总而言之，Reward Shaping就是指让稀疏奖励更好被训练而提出来的人为设计奖励的一种方法。

Curiosity

在某些任务中，可能会给一个初始分数，agent在探索时，由于sparse reward的特性，agent会很难获得分数，且分数还会一直降低。这样的情况，多半训练到后面，agent就摆烂了，待在原地不探索。

Curiosity是一种好奇心机制，鼓励agent进行探索。之前几篇博客里面说到是，随机生成一个概率，随机到了就探索。但是这个策略不同，是设计一个规则，利用reward进行鼓励探索。在上图中，ICM模块会饭回一个 $r^i_n$ ，它会影响total reward。所以 $r^i_n$ 的值越大越好。

Curiosity内部是这样的，里面的network输入是 $a_t$ 和 $s_t$ ，输出一个预测的 $\hat{s}_{t+1}$ ，看它与实际的 $s_{t+1}$ 差了多少，差的越多，得到的reward就越大。本质上是鼓励agent去探索。但这样做也会有副作用，某些state其实是比较差的，可能你一去探索就导致游戏结束。那我们也需要做限制。