没有reward的情况
learning by demonstration/
behavior learning
behavior learning类似监督学习。
ex1. 自动驾驶
人类作为experts, 收集人类驾车时在各种场景(s)下的反应(a), 作为训练资料。
但是,由于没有人会去撞墙,导致agent在学习的时候缺乏快要撞墙时候的反应数据,会让agent不知道接下来该怎么做。
这时候需要使用dataset aggregation的方法: 收集更多样性的data, 而不只是看到的expert的行为
比如,发生了撞墙的后果后,再拿这个数据去训练。但是这样在现实中是不可行的。
Behavior learning 的问题
· 完全学习expert, 也会学习无用甚至错误的行为。 ex. 生活大爆炸 Howard教Sheldon带口音的中文
· agent学习能力有限,可能学到的是不重要的
· mismatch: 训练数据和测试数据不是相同的distribution
Inverse Reinforcement Learning
IRL是用环境和expert返推出reward function
假设expert是最好的。
expert完成N局游戏,获得N个trajectory;初始化一个actor
π
\pi
π 也完成N个trajectory。得到一个reward function( 比如是一个neural network 保证expert 的reward一定大于actor的reward,再通过RF更新actor,再更新RF… -> GAN
Actor就是generator,reward function就是 Discriminator