#Sparse reward
解决sparse reward的方法有reward shaping、curiosity driven reward、(reverse)curriculum learning、Hierarchical Reinforcement learning等等。
reward shaping:在agent与environment交互时,人为设置的reward,从而指挥agent,告诉其采取哪一个action最优,而这个reward不是environment对应的reward,这样可以提高estimate Q-function时的准确性。
存在的问题:认为设计的reward需要domain knowledge,需要自己设计出符合environment与agent更好的交互的reward,这需要不少经验,需根据实际情况调整。
ICM:(intrinsic curiosity module)代表curiosity driven这个技术中的增加新的reward function后的reward function。
curriculum learning:一种广义的用在RL训练agent的方法,其在input训练数据的时候,采取由易到难的顺序进行input,也就是认识设计它的学习过程。
reverse curriculum learning:从最终理想的state出发,依次寻找距离gold state 最近的state作为想让agent达到的阶段性理想state,在此过程中去掉一些极端的case。总而言之,是从目标反推。
hierarchical reinforcement learning:将一个大型task,横或纵拆解成多个agent去执行。
#模仿学习
模仿学习包含两种方法,行为克隆(behavior cloning)和逆强化学习(inverse reinforcement learning)。
行为克隆:类似ML中的监督学习,通过收集expert的state与action 的对应信息,训练我们的network。在使用input state时,得到对应的output action。
……