强化学习打卡之稀疏奖励和模仿学习
1.稀疏奖励
稀疏奖励就是说状态空间很大的情况下采取特定的少数几个动作才能获得奖励,就会导致agent经过大量学习和尝试都没拿到奖励。(这里我想到用epsilon-greedy去探索不就行了吗),这里李宏毅老师的举例十分的妙,我们人每天或者做的事情都没有奖励,但还是一直学习。针对这个情况的办法Reward Shaping(就是认为设计奖励去引导agent)、Curriculum Learning、Hierarchical RL
Reward Shaping
老师举的例子:某个状态下对一个小孩来说由两个动作:学习和玩耍,小朋友没有太多的经验,大概率会选择玩耍,但是玩耍不会得到奖励,所以需要大人引导他,就骗他说,如果你坐下来念书我就给你吃一个棒棒糖。所以,对他来说,下一个时间点会得到的 reward 就变成是positive 的。所以他就觉得说,好像选择这个 study 是比 play 好的。虽然这并不是真正的 reward,而是其他人骗他的reward,告诉他说你采取这个 action 是好的。Reward shaping 就是你自己想办法 design 一些 reward,它不是环境真正的 reward。(所以不是真正的reward后面会计入累计奖励Gt吗)
1.Curiosity
每个奖励中间加一个人为的ICM(内在好奇心模块),那现在我们的