Pearl

用task encoding解决一下问题:

  1. 如何从过去学习的任务中针对新的任务获取有效的信息
  2. 如何对新任务的uncertainty作出更准确的判断

 

背景: 借用了POMDP的状态推理与学习分开的思想; 使用了SAC框架

 

主要工作:本文Meta-learning的流程为,通过Meta-training过程,对过去积累的tasks experience进行encoding,相当于train出一个task encoder。随后,在Meta-testing的过程中,利用encoder来encoding新任务的关键信息,并在学习中不断地更新对新任务的判断,最后,使用encoder返回的信息进行新任务的learning过程。

 

 

Meta Test:完成encoder的training过后,面对一个新的任务,PEARL就可以非常自然的在学习中加入encoded过的信息,从而利用过去学习过的任务进行新任务的学习,即完成了Learn to learn

 

 

总结:总结来说,这篇工作将task inference与learning过程分离的idea来自于POMDPs的探索过程,通过这样的分离,使得meta-RL中对样本的利用率提高了。但是元学习无法回避的对样本的依赖仍然没有解决,如何对learn to learn中的training sample进行选择,可能仍然是需要更多探索的问题。

 

感觉中的不足:此次的结果对比只和没有利用过expert data的数据进行对比,虽然确实快了一两个数量级,但是为体现出和metaBC之间对比的优势劣势,至少训练速度不占优。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值