imitation learning简介(一)

文章来源于最近看的一些有关模仿学习的文献与视频。

我的记忆力一直是不好的,特别是这样一些不太适合用口语化的语句描述的知识。

imitation learning,模仿学习。

这是实现强化学习的方式之一,在很多人的描述中,强化学习的实现方式一共有三种,第一种就是通过贝尔曼方程得到的解值函数所在的方程的问题,这种办法最直观,最容易看出强化学习最初原始的理念观点。第二种就是利用策略梯度,将策略参数化,利用梯度的方式优化参数。第三种就是模仿学习。

以前我以为模仿学习的起源很晚,至少是近几年吧,因为我很难搜到较好的国语资料,想必是大家觉得这一方面没什么好写的吧。李宏毅在他的DRL视频上讲到了这一部分的内容。模仿学习-李宏毅

与之前看的很多资料一致,视频中讲到,模仿学习的实现方式暂时是可以分为三类的。第一类就是类似Supervised Learning的Behavior Cloning。按照李宏毅的说法,这种实现方式顾名思义,就是要让我们的agent学习expert的actor,不管这个actor是否是完美的,不做改变。这样的方式存在的弊端就是Supervised Learning的弊端,可能出现的Overfit,或者一些其他的由于我不了解SL而忽略的问题,我想这是很容易类比来的。

第二类方法就是IRL方法。先提供一个expert的actor,然后我们会初始化一个Reward的函数,我们的目的就是要让我们最后得到的Reward的函数能够保证我们的expert的actor在使用这个Reward来计算自己的报酬总和时能优于其他actor,这与Structed Learning的思想一致,因此可以利用其方法来实现我们的优化过程。这里面存在的问题主要是每一次优化的过程都要进行一次RL的过程,这可能会导致比较大的计算量,是不值得的。

第三类方法就是使用GAN来实现模仿学习。

以上菜鸡理论只能体现我对这方面的知识是多么不完善。还好吧,至少最近有事可干了。

从这里开始我会重新写所有有关imitation learning的内容,以尽量详细的叙述方式。

哦,对了,贴上今天没看的FV吧。

https://en.wikipedia.org/wiki/Feature_vector
  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值