Imitation learning就是模仿学习,以聊天及机器人为例,我们很难去定义reward function,但我们手上有大量的对话数据。然后我们就让机器去模仿人类来对话,采取的方法主要有两种:behavior cloning和inverse reinforce learning。
一、behavior cloning
监督学习的方式,例如用CNN训练一个model,看到某个图片就突出action。
优点是:简单。
缺点是:数据量有限没有撞墙的case,也就是说训练和test之间可能mismatch。改善的方案是data aggregation。另外一点就是可能会把expert多有的内容学过来二不加以区分。
二、Inverse Reinforcement Learning
没有reward function只有expert的demonstration(数据记录-trajectory),Actor可以和环境互动,但是其reward function只能从环境中反推出来。找出reward function 后再根据清强化学习的方法接着训练。
老师