RL论文阅读11-me-SNAIL2018

1. Tittle

image-20200529085537867

source

2. 标签

  • Meta-learning

3. 总结

针对问题

  • 最近的meta-learning方法,一般都是手动设计的,使用某种架构去解决特定的问题 或者 使用硬编码的算法组件。这种手动设计限制了meta-learner解决任务的方式。因为人共设计的架构可能不是针对该任务的最好的方式。
  • Meta-Learning能够被定义为sequence-to-sequence的问题,现有方法都采用这个观点,但是这个瓶颈问题是meta-learner利用并理解以往经验。

解决思路

提出了一个新的meta-learner的结构,结合temporal convolutionssoft attention

  • temporal convolutions:用来让meta-learner整合过去经验的信息。
  • soft attention:精确指定特定的信息碎片。

4. 原理

meta-learning的一些定义

meta-learning是任务级别的,是对不同任务组成的集合上进行一个概括。

传统机器学习是数据级别的,在某个任务的数据集上进行一个概括。

meta-learner的任务时最小化在所有任务上(或者一个batch的任务)上的损失的数学期望。如下:

image-20200529234534117

T i T_i Ti 任务,是序列化的,任务的概率分布: T = P ( T i ) T = \it P (T_i) T=P(Ti)

x t x_t xt任务的输入

a t a_t at任务的输出

L i ( x t , a t ) L_i(x_t,a_t) Li(xt,at)任务的损失函数

θ \theta θ Meta-learner的参数

Simple Neural Attentive Learner(SNAL)

设计原则:

简单和多功能,meta-learner应该能够同时应用于supervised和reinforcement learning。应该同通用并且有足够表达能力去学习最优的策略,而不是使用已经内建(人工设计)的策略

前人工作
  • Santoro et al.(2016) 相似的meta-learning问题表述,使用RNN应用于Meta-Learner。相对有手工设计meta-learner的方法有显著的性能提升。作者猜想可能是因为RNN结构能够通过时间步之间的隐藏层来传播信息。但是这个时间线性相关性限制了对输入流执行复杂计算的能力。
  • van den Oord et al.(2016) 提出了一类通过在时间维度扩展成一维卷积的方式生成序列数据的架构(他们针对的是音频)。即TC(temporal convolutions),他是由因果关系的(下一时间生成的值只受过去的影响 ,与未来无关),相对于RNN,通常各直接、高带宽去访问 过去数据 。然而,对于很长的序列,dilation rates(膨胀率)会指数增长,需要层数序列长度成对数比例。有限的能力位置依赖在meta-learning中是不希望的,他应该能够利用越来越多的经验。
  • soft attention允许模型从无限大的contex(上下文)中定位特定的信息片段。contex是以key-value形式存储的。但是缺少位置依赖(positional dependence),没有表达序列化的能力,故也是meta-learner不希望的,特别是在RL中,信息本身就是序列化的。

所以把TC和soft attention结合,优缺点互补。且比RNN更好训练。

架构图:黄色点是TC layer, 绿色点是Attentons Layer。

image-20200530002822366

每个模块的输入输出

多个Dense Block和扩张率组成一个TC。TC没在图中画出来

image-20200530003006916

DenseBlock的伪代码:

image-20200530003232972

TC Block伪代码:

image-20200530003308349

Attention Block的伪代码:

image-20200530003329308

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值