imitation learning简介（一）

最新推荐文章于 2023-10-23 15:41:39 发布

懦夫的抉择

最新推荐文章于 2023-10-23 15:41:39 发布

阅读量3k

点赞数

分类专栏： imitation learning

本文链接：https://blog.csdn.net/li872149120/article/details/77927934

版权

imitation learning 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

文章来源于最近看的一些有关模仿学习的文献与视频。

我的记忆力一直是不好的，特别是这样一些不太适合用口语化的语句描述的知识。

imitation learning，模仿学习。

这是实现强化学习的方式之一，在很多人的描述中，强化学习的实现方式一共有三种，第一种就是通过贝尔曼方程得到的解值函数所在的方程的问题，这种办法最直观，最容易看出强化学习最初原始的理念观点。第二种就是利用策略梯度，将策略参数化，利用梯度的方式优化参数。第三种就是模仿学习。

以前我以为模仿学习的起源很晚，至少是近几年吧，因为我很难搜到较好的国语资料，想必是大家觉得这一方面没什么好写的吧。李宏毅在他的DRL视频上讲到了这一部分的内容。模仿学习-李宏毅

与之前看的很多资料一致，视频中讲到，模仿学习的实现方式暂时是可以分为三类的。第一类就是类似Supervised Learning的Behavior Cloning。按照李宏毅的说法，这种实现方式顾名思义，就是要让我们的agent学习expert的actor，不管这个actor是否是完美的，不做改变。这样的方式存在的弊端就是Supervised Learning的弊端，可能出现的Overfit，或者一些其他的由于我不了解SL而忽略的问题，我想这是很容易类比来的。

第二类方法就是IRL方法。先提供一个expert的actor，然后我们会初始化一个Reward的函数，我们的目的就是要让我们最后得到的Reward的函数能够保证我们的expert的actor在使用这个Reward来计算自己的报酬总和时能优于其他actor，这与Structed Learning的思想一致，因此可以利用其方法来实现我们的优化过程。这里面存在的问题主要是每一次优化的过程都要进行一次RL的过程，这可能会导致比较大的计算量，是不值得的。

第三类方法就是使用GAN来实现模仿学习。

以上菜鸡理论只能体现我对这方面的知识是多么不完善。还好吧，至少最近有事可干了。

从这里开始我会重新写所有有关imitation learning的内容，以尽量详细的叙述方式。

哦，对了，贴上今天没看的FV吧。
https://en.wikipedia.org/wiki/Feature_vector