RL论文阅读7 - MAML2017

最新推荐文章于 2024-04-15 09:46:28 发布

SpadeA_Iverxin

最新推荐文章于 2024-04-15 09:46:28 发布

阅读量437

点赞数

分类专栏：论文阅读文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/KuXiaoQuShiHuai/article/details/106162955

版权

论文阅读专栏收录该内容

32 篇文章 5 订阅

订阅专栏

Tittle

标签

meta-learning
framework

总结

meta-learning的目标就是训练一个模型，使这个模型能够从很少的新任务的数据中快速学习一个新的任务。这个模型的训练需要大量的不同任务作为数据。

提出了一种meta-learning的框架，能够用于使用梯度下降的算法，使其在应用于新的任务时，只需要很少步骤的训练就能够达到较好的效果。这个框架能够用于分类任务(如图像)和使用梯度下降来训练策略的强化学习的任务。

其实简单来说，就是训练了适应一些列某类的任务的模型网络，当有该类新任务时，只需要在这个模型上进行参数微调。

特点：

能够从较少的examples中快速学习
随着数据量的增多，能够继续增加算法的适应性

原理概述

一些标记：

模型： $f$
任务： $\{ L(x_1,a_1...x_H,a_H), q(x_1), q(x_{t+1}| x_t,a_t) ,\it H \}$
- $L$ 损失函数
- $q(x_1)$ 初始状态分布
- $q(x_{t+1}| x_t,a_t)$ 状态转换概率分布
- H: episode长度（多少步）

模型训练

希望让模型的参数处于对任务改变的敏感点，这样任务微小的改变，都能引起很大的loss function改变，然后使用这个方向对特定任务进行更新。如下图：

适应参数训练

模型 $f_\theta$ 的参数为 $\theta$ 。当这个模型去适应一个新的任务 $KaTeX parse error: Undefined control sequence: \T at position 1: \̲T̲_i$ ，那么通过若干部梯度下降，就能够得到针对这个任务的适应参数 $\theta '$ 。 $\theta'$ 使用下面这个更新公式计算（以一步gradient为例，多步同理）：

就是继续利用 $T_i$ 的损失函数继续优化。

$\alpha$ 是学习率

模型参数训练

采样一些任务tasks，这些任务服从 $p (T)$ 分布

然后先计算每个任务的适应参数 $\theta'$ 和它的损失，然后最小化采样任务的所有损失和来更新模型参数 $\theta$

注意这里计算的某个任务的损失，使用的是已经进行适应该任务的模型 $f_{\theta '}$ ，而不是通用模型 $f_\theta$

使用随机梯度下降(SGD)，那么 $\theta$ 的更新就表示为：

$\beta$ 是另一个学习率

算法描述

应用到回归和分类问题

算法描述

注意事项：

定义模型的H=1，丢弃了时间步 $x_t$ ，因此模型是一个输入对应一个输出，而不是序列输出输出
任务认为独立同分布
回归问题损失函数使用MSE
分类为题使用交叉熵损失函数：

应用到RL问题

算法描述

注意事项：

RL的对于任务 $T_i$ 的损失函数如下：
- 定义R为非负， Loss之所以有负号是在RL中我们希望奖励值最大，由于使用的是梯度下降算法，加一个负号相当于梯度上升了，向着最大的饿方向。
对于step8，由于策略梯度算法是on-policy算法，所以需要使用当前的适应过的策略 $f_{\theta'}$ 来采样新的数据。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。