一、sparse reward
如果是复杂的问题很难会得到reward,所以要在中间的时间点给一些reward,以引导行为,但是中间加入的reward不一定就会对最终任务的完成有利,因此需要增加一个新的reward
这里面新的reward就是ICM,它的作用是给mechine加上“好奇心”。下面看怎么加ICM
这里面看两个state的差值,如果差值越大则奖励越大。这里面的network是单独训练的网络。
然后又有一个改进版的
这里面feature extractor的作用是把state里面无关紧要的东西过滤掉
二、imitation learning
有两种方法进行模仿学习
- behavior cloning
就是监督学习的方法。缺点是容易把不好的行为学到,而且很难把所有经验都学到,而没学到的很容易失之毫厘,谬以千里。 - inversed reinforcement learning
相当于是反过来,通过expert得出reward function
比如先由有经验的人玩N场游戏,再由机器玩N场游戏,将他们的序列都记录下来,然后对比得出reward function,要保证人的分数总是比机器的好,然后根据reward function 再得到新的policy function