ARUBA 总结

最新推荐文章于 2023-11-29 22:52:48 发布

Mr_tianyanxiaobai

最新推荐文章于 2023-11-29 22:52:48 发布

阅读量939

点赞数 2

分类专栏：人工智能文章标签：深度学习

本文链接：https://blog.csdn.net/Mr_tianyanxiaobai/article/details/107296903

版权

人工智能专栏收录该内容

24 篇文章 1 订阅

订阅专栏

背景

元学习

元学习 ：在经典的机器学习设置中，我们的目标是在给定来自相同分布的许多训练样本的情况下，为单个任务学习单个模型。但是，实际上，在许多实际应用中，我们面临着几个截然不同却又相关的任务，每个任务只有几个示例。由于数据来自不同的训练分布，因此简单地通过随机梯度下降（SGD）学习单个全局模型可能会导致每个任务的表现不佳。因此，设计用于从多个任务进行学习的算法已成为机器学习的主要研究领域。这种对多个含有不同分布的数据集任务进行学习的过程就叫做元学习。元学习的主要目的就是：希望得到一个初始模型，当来了一个新的相似任务，只需要进行少量的梯度下降就能够得到一个表现良好的新任务的新模型 。*

Reptile

简单的说就是需要在模型运行之前，指定一组较好的模型参数，一个较为简单的指定算法 Reptile 算法可以达到这个目的，该算法又叫基于梯度的元学习算法（GBML）。
GBML：利用梯度下降算法（SGD），不断更新参数的过程。

首先设模型参数初始为 $\phi$ 。存在 n 个训练任务分别为 $T_1,T_2...,T_n$ 。每个任务设置一个学习率 $\alpha_t$ 。
t =0。
以 $\phi$ 为模型初始参数，对任务 t 进行梯度下降的训练，得到训练后的模型参数 $\theta_t$ 。
更新模型初始化权重: $\phi \gets \phi+\alpha_t(\theta_t-\phi)$ 。
t=t+1,调到步骤3，直到遍历完所有得到任务。
输出利用元学习得到的模型初始参数： $\phi$ 。

任务间损失函数的定义

在训练第 t（1…T）个任务的第 i (1…m) 次迭代时，模型参数的集合可以记作 $\theta_{t,i}\in\Theta$ ，每次模型对应的损失可以记作 $\ell_{t,i}(\theta)=L(f_\theta(x_{t,i}),y_{t,i})$ 。

为了能够对任务的初始参数进行更新，我们还需要定义一个任务间的损失函数，用于更新 $\phi$ ，为此我们为每个任务引入平均遗憾的概念。

首先让我们来表示一下，任意任务的遗憾 $R_t$ :
$R_t =\sum_{i=1}^m\ell_{t,i}(\theta_{t,i})-\min_{\theta\in\Theta}\sum_{i=1}^m\ell_{t,i}(\theta)$
其中 $\min_{\theta\in\Theta}\sum_{i=1}^m\ell_{t,i}(\theta)$ 表示的是初始为最佳模型的总损失。

简单的说，上面的损失表示的是，我们利用梯度下降得到的模型总损失 $\sum_{i=1}^m\ell_{t,i}(\theta_{t,i})$ 和理想情况下，一开始就是最佳模型所计算出的总损失的距离。我们将这种距离称之为遗憾。

这种遗憾越小，证明我们模型的初始参数和训练后参数的 “距离” 越小，证明我们的模型越好。

令 $\theta_t^\ast=\arg\min_\theta\sum_{i=1}^m\ell_{t,i}(\theta)$ ，表示理想模型下的总损失。那么遗憾函数可以化为：

$R_t =\sum_{i=1}^m\ell_{t,i}(\theta_{t,i})-\theta_t^\ast$

我们可以先将任务 t 的数据传入模型进行训练，得到任务 t 下的实际总损失 $\sum_{i=1}^m\ell_{t,i}(\theta_{t,i})$ ，然后根据训练后的模型计算出理想总损失 $\theta_t^\ast$ 。最后两个相减得到任务 t 的总遗憾，再除以迭代次数 m ，得到任务 t 的平均遗憾。

待解决的问题

Reptile 算法的局限性

假设任务的初始化参数 $\phi\in\Theta$ ，学习率 $η > 0$ ， Lipschitz 函数为损失函数， $Θ$ 的左右边界半径为 $D$ 。则可以得到

$R_t= \sum_{i=1}^m\ell_{t,i}(\theta_{t,i})-\ell_{t,i}(\theta_t^\ast)\le\frac{\|\phi-\theta_t^\ast\|_2^2}{2\eta}+\eta m$

令 $\eta=D/\sqrt m$ ，则任务 t 的遗憾可以记作： $R_t=\mathcal O(D\sqrt m)$ 。
因此，针对于第 t 个任务的所有训练次数的平均遗憾为： $R_t/m=\mathcal O(\frac{D}{\sqrt m})$ 。
综上：我们的迭代次数 m 和平均遗憾 $R_t/m$ 成正比。

当我们迭代的次数过多时，我们的平均遗憾就能变得很低。但是 m 过小时，我们的平均遗憾就不那么好了。即表示初始模型参数质量一般，需要下降大量的损失才能找到最佳模型。

注：这里将学习率设置为 $D/\sqrt m$ 是遵循了传统的学习的设置方案。如下： $\alpha=\frac{k}{\sqrt {epoch\_num}}$ 其中 k 为一个超参。

解决方案

多任务学习（改变了学习率）

多任务学习就是最小化所有任务的平均遗憾，而非专注于某一个任务。将多个任务的遗憾看做一个整体，最小化所有任务的平均遗憾，平均遗憾的表示方法如下：
$\bar R =\frac1T\sum_{t=1}^TR_t =\frac1T\sum_{t=1}^T\sum_{i=1}^m\ell_{t,i}(\theta_{t,i})-\ell_{t,i}(\theta_t^\ast)$

在 Reptile 算法中，我们使用一个大范围 D 来定义学习率所需要的超参 k，这里我们使用一个更具体的平均距离 V 来定义这个超参：

$V^2=\min_\phi\frac1T\sum_{t=1}^T\|\theta_t^\ast-\phi\|_2^2$

上列式子将模型中的超参范围进行了缩小（原来是本来的范围 D），现在将这个距离换成了模型初始值到任务最佳模型的距离。如下图所示：
在这里插入图片描述
由于超参的更换，使用该方法得到的平均遗憾恒小于 $\bar R\to\mathcal O(V\sqrt m)$ （如果是 Reptile 算法就是 $\mathcal O(D\sqrt m)$ ）。从上图可以明显看出，模型参数的搜索范围减少，这样可以很容易的找到最佳参数。

使用梯度下降算法求解 $\phi$ ：

由于 $U_t(\phi)=\frac{\|\phi-\theta_t^\ast\|_2^2}{2\eta}+\eta m\ge R_t$ ，因此任务之间的梯度下降可以定义为：
$\phi_{t+1} =\phi_t-\tilde\alpha_t\nabla U_t(\phi_t) =\phi_t+\frac{\tilde\alpha_t}\eta(\theta_t^\ast-\phi_t)$

其中 $\tilde\alpha_t$ 表示任务之间的学习率。
我们可以通过上面式子求得最佳的初始模型。

附件：平均损失上界的推导过程

当 $\alpha_t=1/t$ 时，我们可以得到下列式子（证明参照这篇论文）::
$\sum_{t=1}^TU_t(\phi_t)-\min_{\phi\in\Theta}\sum_{t=1}^TU_t(\phi)=O\left(\frac{\log T}\eta\right)$
然后我们可以通过该等式计算出平均损失的上界为： $\bar R=\mathcal O\left(\frac{\sqrt m}{VT}\log T+V\sqrt m\right)\to\mathcal O(V\sqrt m)$
推导过程如下：
$\begin{aligned} \bar R =\frac1T\sum_{t=1}^TR_t &\le\frac1T\sum_{t=1}^TU_t(\phi_t)\\ &=\frac1T\left(\sum_{t=1}^TU_t(\phi_t)-\min_{\phi\in\Theta}\sum_{t=1}^TU_t(\phi)\right)\qquad+\qquad\quad\min_{\phi\in\Theta}\frac1T\sum_{t=1}^TU_t(\phi)\\ &=\qquad\qquad\mathcal O\left(\frac{\log T}{\eta T}\right)\qquad\qquad+\qquad\qquad\min_{\phi\in\Theta}\frac1T\sum_{t=1}^T\frac{\|\theta_t^\ast-\phi\|_2^2}{2\eta}+\eta m\\ &=\qquad\qquad\mathcal O\left(\frac{\log T}{\eta T}\right)\qquad\qquad+\qquad\qquad\qquad\mathcal O\left(\frac{V^2}\eta+\eta m\right) \end{aligned}$
设 $\eta=V/\sqrt m$ ，则当 $T\to\infty$ 时， $\bar R=\mathcal O\left(\frac{\sqrt m}{VT}\log T+V\sqrt m\right)\to\mathcal O(V\sqrt m)$ 。

ARUBA （Average Regret-Upper-Bound Analysis）

像上面这种分析遗憾的上边界的过程叫做 ARUBA。而这种分析主要源于上界函数 $_t (\phi)$ 的两个重要性质：

由于 $U_t$ 表示的是最终模型 $\theta_t^\ast$ 和初始模型 $\phi$ 的距离，因此我们可以根据模型的相似性原理很好地利用该函数计算任务的平均遗憾。
$U_t$ 的强凸性是我们更好的应用优化求解算法。

莎士比亚的风格的文本生成模型（FedAvg document ）

任务概述

数据集：莎士比亚的小说集合。按照 $8 : 2$ 的比例将数据分割成训练集和测试集。
模型输入：模型输入为长度 80 的词嵌入,大小为 $\times 80$ 。
模型输出：预测输入文本的下一个字符，如输入“hell” ，输出 “o”。数据大小为 $N\times 1$ 。
这里使用元学习的方法训练模型。将莎士比亚的每个小说的每一章当做一个独立的训练集。换句话说，把学习某篇小说的某一章节的语言风格看做是一个独立的任务。
目标：得到一个能够快速适应新任务（训练次数断）的初始模型。
缺点：本论文的测试和训练使用的数据集类似，其实并没有训练新任务观察结果。

模型建立与训练

使用 2 层 LSTM 模型，每层隐藏单元 256 。
进行 500 次迭代，每次迭代随机从训练任务中，选出 10 个任务进行遍历。
- 每次只遍历10个中的一个任务，训练过程中采用交叉熵函数计算损失，得到训练后模型。计算这 10 个任务的模型的参数总和 outlstm:
  $outlstm_i=\sum_{t=0}^{10}{model_{t,i}\times len\_task_t}$
  其中 $outlstm_i$ 表示 outlstm 模型的第 i 层参数。 $model_{t,i}$ 表示第 t 个任务的训练模型的第 i 层参数。 $len\_task_t$ 表示第 t 个任务包含的数据集合的长度
- 得到的 outlstm 是针对于所有数据的模型总和。因此在每次迭代结束之前，我们还需要将该参数除以10个任务的总数据量，得到平均模型参数，然后将该参数作为下次迭代时，模型的初始参数。如下：
  $\frac{outlstm}{\sum_{t=0}^{10}{ len\_task_t}}$
迭代 500 次后得到最终的初始模型 model

学习率的变化策略

本实验主要进行下面三个对比实验：

学习率呈指数衰减 $\eta = d^i$ ，其中 d 为衰减半径，i 为迭代次数。使用交叉熵损失作为损失函数进行梯度下降。
ARUBA算法优化GBML：
ARUBA 算法的改进
实验结果

图像训练

reptile 算法用于更新元学习的初始模型。
实验一共使用了两个 few-shot 数据：moniglot 和 Mini- ImageNet
K-shot，N-way 表示我们需要从样本集合中选取 N 类样本，每类样本存在 K+1 个样例

moniglot 数据集

此数据集可以认为是小样本学习的一个基准数据集。
它一共包含1623 类手写体，每一类中包含20 个样本。
其中这 1623 个手写体类来自 50 个不同地区（或文明）的 alphabets，如：Latin 文明包含 26 个alphabets，Greek 包含 24 个alphabets。
如下图的 24个希腊字母，代表 Greek 文明下的 24 个类，每个字母只有 20 个样本。