文章来源于最近看的一些有关模仿学习的文献与视频。
我的记忆力一直是不好的,特别是这样一些不太适合用口语化的语句描述的知识。
imitation learning,模仿学习。
这是实现强化学习的方式之一,在很多人的描述中,强化学习的实现方式一共有三种,第一种就是通过贝尔曼方程得到的解值函数所在的方程的问题,这种办法最直观,最容易看出强化学习最初原始的理念观点。第二种就是利用策略梯度,将策略参数化,利用梯度的方式优化参数。第三种就是模仿学习。
以前我以为模仿学习的起源很晚,至少是近几年吧,因为我很难搜到较好的国语资料,想必是大家觉得这一方面没什么好写的吧。李宏毅在他的DRL视频上讲到了这一部分的内容。模仿学习-李宏毅
与之前看的很多资料一致,视频中讲到,模仿学习的实现方式暂时是可以分为三类的。第一类就是类似Supervised Learning的Behavior Cloning。按照李宏毅的说法,这种实现方式顾名思义,就是要让我们的agent学习expert的actor,不管这个actor是否是完美的,不做改变。这样的方式存在的弊端就是Supervised Learning的弊端,可能出现的Overfit,或者一些其他的由于我不了解SL而忽略的问题,我想这是很容易类比来的。
第二类方法就是IRL方法。先提供一个expert的actor,然后我们会初始化一个Reward的函数,我们的目的就是要让我们最后得到的Reward的函数能够保证我们的expert的actor在使用这个Reward来计算自己的报酬总和时能优于其他actor,这与Structed Learning的思想一致,因此可以利用其方法来实现我们的优化过程。这里面存在的问题主要是每一次优化的过程都要进行一次RL的过程,这可能会导致比较大的计算量,是不值得的。
第三类方法就是使用GAN来实现模仿学习。
以上菜鸡理论只能体现我对这方面的知识是多么不完善。还好吧,至少最近有事可干了。
从这里开始我会重新写所有有关imitation learning的内容,以尽量详细的叙述方式。
哦,对了,贴上今天没看的FV吧。
https://en.wikipedia.org/wiki/Feature_vector
imitation learning简介(一)
最新推荐文章于 2023-10-23 15:41:39 发布