RL论文阅读11-me-SNAIL2018

最新推荐文章于 2021-02-28 18:38:52 发布

SpadeA_Iverxin

最新推荐文章于 2021-02-28 18:38:52 发布

阅读量303

点赞数

分类专栏：论文阅读文章标签：人工智能算法

本文链接：https://blog.csdn.net/KuXiaoQuShiHuai/article/details/106435846

版权

32 篇文章 5 订阅

订阅专栏

最近的meta-learning方法，一般都是手动设计的，使用某种架构去解决特定的问题 或者 使用硬编码的算法组件。这种手动设计限制了meta-learner解决任务的方式。因为人共设计的架构可能不是针对该任务的最好的方式。
Meta-Learning能够被定义为sequence-to-sequence的问题，现有方法都采用这个观点，但是这个瓶颈问题是meta-learner利用并理解以往经验。

提出了一个新的meta-learner的结构，结合temporal convolutions和soft attention。

meta-learning是任务级别的，是对不同任务组成的集合上进行一个概括。

传统机器学习是数据级别的，在某个任务的数据集上进行一个概括。

meta-learner的任务时最小化在所有任务上（或者一个batch的任务）上的损失的数学期望。如下：

$T_i$ 任务，是序列化的，任务的概率分布： $\it P (T_i)$

$x_t$ 任务的输入

$a_t$ 任务的输出

$L_i(x_t,a_t)$ 任务的损失函数

$\theta$ Meta-learner的参数

简单和多功能，meta-learner应该能够同时应用于supervised和reinforcement learning。应该同通用并且有足够表达能力去学习最优的策略，而不是使用已经内建（人工设计）的策略

Santoro et al.(2016) 相似的meta-learning问题表述，使用RNN应用于Meta-Learner。相对有手工设计meta-learner的方法有显著的性能提升。作者猜想可能是因为RNN结构能够通过时间步之间的隐藏层来传播信息。但是这个时间线性相关性限制了对输入流执行复杂计算的能力。
van den Oord et al.(2016) 提出了一类通过在时间维度扩展成一维卷积的方式生成序列数据的架构(他们针对的是音频)。即TC（temporal convolutions）,他是由因果关系的（下一时间生成的值只受过去的影响，与未来无关），相对于RNN，通常各直接、高带宽去访问过去数据。然而，对于很长的序列，dilation rates（膨胀率）会指数增长，需要层数与序列长度成对数比例。有限的能力和位置依赖在meta-learning中是不希望的，他应该能够利用越来越多的经验。
soft attention允许模型从无限大的contex（上下文）中定位特定的信息片段。contex是以key-value形式存储的。但是缺少位置依赖（positional dependence），没有表达序列化的能力，故也是meta-learner不希望的，特别是在RL中，信息本身就是序列化的。

所以把TC和soft attention结合，优缺点互补。且比RNN更好训练。

多个Dense Block和扩张率组成一个TC。TC没在图中画出来。

DenseBlock的伪代码：

TC Block伪代码：

Attention Block的伪代码：

关注