Learning to Learn: Meta-Critic Networks for Sample Efficient Learning||论文讲解

 

元学习论文总结||小样本学习论文总结

2017-2019年计算机视觉顶会文章收录 AAAI2017-2019 CVPR2017-2019 ECCV2018 ICCV2017-2019 ICLR2017-2019 NIPS2017-2019

 


 

转载:https://zhuanlan.zhihu.com/p/27629294

文章:https://arxiv.org/abs/1706.09529

我们人是基于价值观驱动的动物。我们做什么不做什么都是因为大脑里面有一杆秤在思考哪个更重要。即使有时候非常感性,也是因为感性的时候做那件事的价值最大化了。既然人拥有价值观,我们能不能让AI也拥有价值观,并利用价值观来驱动AI快速学习?

答案当然是可以,也是这篇Paper所做的事情。方法很简单:

让AI在学习各种任务后形成一个核心的价值网络,从而面对新的任务时,可以利用已有的核心价值网络来加速AI的学习速度!

 

上图为Meta-Critic Network的基本示意图。我们以CartPole这个让杆保持平衡的任务来做分析。在我们这里,杆的长度是任意的,我们希望AI在学习了各种长度的杆的任务后,面对一个新的长度的杆,能够快速学习,掌握让杆保持平衡的诀窍。

 

怎么做呢?

每一个训练任务我们都构造一个行动网络(Actor Network),但是我们只有一个核心指导网络(Meta-Critic Network),这个网络包含两部分:一个是核心价值网络(Meta Value Network),另一个则是任务行为编码器(Task-Actor Encoder)。我们用多个任务同时训练这个Meta Critic Network。训练方式可以是常见的Actor-Critic。训练时最关键的就是Task-Actor Encoder,我们输入任务的历史经验(包括状态state,动作action,和回馈reward),然后得到一个任务的表示信息z,将z和一般价值网络的输入(状态state和动作action)连接起来,输入到Meta Value Network中。

通过这种方式,我们可以训练出一个Meta Critic Network。面对新的任务(也就是杆的长度变化了),我们新建一个行动网络Actor Network,但是却保持Meta Critic Network不变,然后同样使用Actor-Critic方法进行训练。这个时候,效果就出来了,我们可以学的非常快:

 

看第一个图的紫色学习曲线,reward的上升速度非常快,standard是完全的Actor-Critic训练,基本就还是平的(一般对于CartPole任务需要训练几千次才能收敛到195的得分通过任务)。然后看右边第三个图,在仅仅玩100个杆训练后,Meta-Critic方法就能够达到25%通过任务的成功率,而其他方法都还早着呢。实际上paper也没有显示的一个结果是基于Meta Critic Network训练300步可以让任务通过率基本达到100%。这种结果非常的promising!

 

那么我们会关心任务行为编码器(Task-Actor Encoder)学到了什么?于是我们把不同任务的z提取出来用t-SNE显示如中间那个图所示。然后我们惊讶的发现z的分布和CartPole杆的长度是直接相关的,这意味着任务行为编码器确实可以利用以往的经验来理解一个任务的配置信息。

除了将Meta-Critic Network应用在增强学习领域,我们同样可以将其应用在监督学习。具体方法这里就不分析了,我们看一下结果:

 

我们使用基本的函数拟合来看其快速学习的能力。上图是只用4个样本来训练的结果。我们弄了两种任务:第一种是只拟合sin函数,而第二种则要拟合sin或者线性函数。大家可以看到,第二种任务的差别很大。上图左边第一个图是第一种任务的情况,大家可以看到使用Meta-Critic的拟合效果非常好,而我们一般的监督学习训练(黄线表示)基本没有拟合成功!MAML是目前Meta-Learning很新的一个研究,但是效果相对我们的有差。然后接下来看第二种任务,难度变大了,我们可以看到第二和第三个图,Meta-Critic对于sin和线性函数都做的不错,但是MAML效果就差了。MAML的思想是构建一个好的初始网络然后finetune,显然很难适应不同类型的任务,而Meta-Critic由于有任务行为编码器(Task-Actor Encoder)的存在,可以面对各种不同类型的任务。

 

6 小结

Meta-Critic Network作为一种全新的Meta Learning方法,通过训练出一个核心指导网络(也就是核心价值观),从而能够指导新任务的快速学习,具备非常大的潜力。在未来的工作中,我们将应用Meta-Critic Network到更复杂的任务中,实现更好的应用!

最后欢迎感兴趣的朋友阅读我们的paper,欢迎批评指正!谢谢!

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值