Raki的读paper小记：Model Zoo: A Growing “Brain” That Learns Continually

爱睡觉的Raki

已于 2022-04-08 23:00:29 修改

阅读量863

点赞数

分类专栏：读paper Continual Learning 文章标签：机器学习深度学习人工智能持续学习神经网络

于 2022-02-28 20:49:31 首次发布

本文链接：https://blog.csdn.net/Raki_J/article/details/123189806

版权

读paper 同时被 2 个专栏收录

83 篇文章

订阅专栏

Continual Learning

19 篇文章

订阅专栏

Abstract & Introduction & Related Work

研究任务
已有方法和相关工作
面临挑战
创新思路
当用协同任务训练时，某项任务的泛化误差可以提高，但用竞争性任务训练时，泛化误差也会恶化。这一理论促使我们采用了名为Model Zoo的方法，该方法受到boosting文献的启发，发展了一个小型模型的集合，每个模型都在持续学习的过程中被训练
实验结论
1. 我们描述了什么情况下可以用一个模型学习多个任务，同样，什么情况下这样做不利于某个特定任务的准确性
2. 上述分析表明，一个持续学习者可以从将其学习能力分成几组协同任务中获益。我们开发了这样一个持续学习器，叫做Model Zoo。在每个事件中，一个小型的多任务模型被添加到Model Zoo中，该模型适合于当前任务和一些过去的任务。这种方法松散地受到AdaBoost的启发，因为它选择了在过去几轮中表现不佳的任务，因此可以从当前任务的训练中受益最多。在推理时间，给定任务后，我们对所有在该任务上训练过的模型进行平均预测
3. 我们在现有的任务递增式持续学习基准问题上全面评估了Model Zoo，并展示了与现有方法的比较，我们将Model Zoo与现有的方法在一些这样的环境中进行比较。在所评估的基准上，Model Zoo获得了比现有方法更好的准确性。在某些情况下，每个任务的平均准确度的提高是相当大的，例如，Split-miniImagenet的准确度提高了30%
4. 我们发现，即使是一个孤立的学习者，也就是在每一集的任务上训练一个（小的）模型，而不进行任何持续的学习也远远比现有的持续学习模型表现更好，这种强劲的表现令人惊讶，因为它是一个非常简单的学习器，具有更好的训练/推理时间，没有数据重放，并且与现有方法的权重数量相当。这令人惊讶，并指出了目前文献中的一个巨大的智力差距：虽然一些现有的方法试图减轻灾难性遗忘，但它们往往是以向前或向后转移为代价的。我们主张退后一步，重新思考风格化的表述是否阻碍了我们建立良好的持续学习方法。我们主张，每项任务的准确性和前向-后向转移应该是未来研究的重点

在这里插入图片描述

A theoretical analysis of how to learn from multiple tasks

Remark1

（来自其他任务的数据即使有协同作用，也未必能提高准确性）。让我们利用上述分析做一些观察。(i) 从(4)中可以看出，每个任务的样本数m随着n的增加而减少；这是任务间强关联性的好处，正如我们接下来看到的，一般情况下不是这样。(ii) 任务的数量基本上与D成线性比例，这表明如果我们有很少的任务，应该使用一个小的模型。(iii) 但我们不能总是使用一个小模型。如果任务是多样化的，并通过复杂的变换与大的|F|相关，我们需要一个大的假设空间来共同学习它们。如果|F|很大，而H并不合适，那么VC维度 $d_{max}$ 就和 $D$ 本身一样大；在这种情况下，用多个任务一起训练又没有统计学上的好处，但也不会恶化

定理2（任务竞争）

假设我们希望为任务P1找到一个好的假说，并能获得n个任务 $P_1, ... . , P_n$ ，其中每对 $P_i$ ， $P_j$ 都是 $ρ_{ij}$ -相关的。将任务按 $ρ_{i1}$ 的递增顺序排列。即它们与 $P_1$ 的关联性的递增顺序排列。让这个顺序为 $P_{(1)}, P_{(2)}, . . . , P_{(n)}$ ，其中 $ρ (1) \leq ρ (2) \leq . . . \leq ρ (n)$ 且 $P(1)≡P_1，ρ_{(1)}=1$ 。让 $h^k$ 是最小化前 $k \leq n$ 个任务的平均经验风险的假说。前 $k \leq n$ 个任务的平均经验风险最小。然后，以至少 $1 - δ$ 的概率在训练数据的抽样中
在这里插入图片描述

Remark3（挑选假设空间的大小）

第一和第二项描述了任务之间的协同作用和竞争，平衡它们是在一个给定任务上取得良好表现的关键。增加假设空间的大小可以减少第一项，因为它允许单一的假设更容易同意两个不同的分布 $P_i$ 和 $P_j$ 。然而，这是以增加第二项为代价的，第二项随着假设空间的大小而增长

Remark4（对于不同的任务，协同任务的集合可以是不同的）

(6)中的右手边在选择k(其中1≤k≤n)时达到最小，以平衡第一和第二项。最佳的k可以随着任务的不同而变化，例如，对于一般的任务，大多数的其他任务将是协同的，同样，一个小的最佳k表示任务的不协调，其中特定的任务，例如P1应该与一组特定的其他任务进行训练。即使是像CIFAR-100这样的典型数据集，要了解理想的任务集来进行训练也是非常不容易的；图2通过实验研究了这一点
在这里插入图片描述

Remark5（由于任务竞争，持续学习特别具有挑战性）

定理2表明，学习者不仅要按顺序显示任务，而且还可能要与当前任务和在过去任务中学习的表征之间的竞争作斗争。在当前任务的学习中，它无法获得来自未来的协同任务。而且，在没有数据回放的情况下，学习者不能明确地从过去的协同任务中获益。除了它已经学会的表征之外。这表明，我们必须更加谨慎地对待持续学习中的表征应该如何更新的问题

Model Zoo: A continual learner that grows its learning capacity

理论2可以看做是“没有免费午餐定理”，我们可以希望每个任务都能从协同作用中受益，而不会因为与不和谐的任务竞争而导致准确性下降。Model Zoo是一种简单的方法，就是为了这个目的而设计的

在这里插入图片描述

Selecting tasks to train with for each round using boosting.

使用提升法选择每轮训练的任务。原则上，我们可以使用转移指数 $ρ_{ij}$ 来选择协同任务，但计算转移指数的难度基本上与所有任务的训练一样大，持续学习并不能先验地获得所有任务。因此，我们开发了一种自动的方法来选择每一轮的任务。为此，我们从boosting（Schapire和Freund，2013）中获得灵感。回顾一下AdaBoost算法，它建立了一个弱学习器的集合（原则上它们可以是任何学习器，Mason等人（1999）），每个学习者都是根据反复重新加权的训练数据进行拟合的（Breiman，1998）。我们认为在Model Zoo中每次持续学习时学到的模型是 “弱学习者”，而每一轮提升相当于每次持续学习的过程。让 $\bar{w_k}∈R^n$ 是一个归一化的特定任务权重向量。权重的归一化向量。在k之后
在这里插入图片描述
因此，在目前的Model Zoo下，经验风险较低的任务在下一轮提升中获得较低的权重。就像AdaBoost通过迭代关注难以分类的样本，将所有样本的训练误差指数化地降低到零（Schapire和Freund，2013），随着更多模型的加入，Model Zoo在所有任务上实现了低经验风险

The key feature of Model Zoo

Zoo模型的主要特点是它自动将能力分给各组任务。即使在一轮中选择了相互竞争的任务，这可能会导致某些任务的高超额风险，但如果该任务在合集下有较大的误差，它将在未来几轮中再次被选择

俗话说，Zoo模型中的集合体代表了一个 “大脑”，当更多的任务被展示给它时，它的学习能力就会不断地增长。

Remark6（Model Zoo表述中的假设）

我们假设在训练和测试时，持续学习者都知道任务的身份。来自过去任务的数据也与任务的身份一起被存储。这在文献中被称为任务递增设置（Van de Ven and Tolias, 2019）。最近在持续学习方面的工作也研究了这种任务身份不为人知的环境，例如（Kaushik等人，2021），Zoo模型不是为处理这种环境而设计的

Empirical Validation

在这里插入图片描述

Discussion

持续学习是一个重要的问题，因为深度学习系统从传统的拥有一个固定模型对用户查询进行推断的模式过渡到我们希望更新模型以处理新类型查询的环境。这样一个系统的关键要求很明确：它必须显示出高的每个任务的准确性和强大的前向-后向转移。本文试图开发这样一个持续的学习者，并使用任务相关性的视角来研究这个问题。它认为，学习者必须把它的能力分成几组任务，以减轻任务之间的竞争，并从它们之间的协同作用中受益。我们开发了Model Zoo，这是一种受AdaBoost启发的持续学习算法，它可以增长一个模型集合，每个模型都是在当前任务的数据和过去任务的子集上训练的。我们表明，在各种各样的数据集、问题表述和评价标准中，Model Zoo及其变体的表现明显优于现有的持续学习方法。我们还表明，一个简单的基线方法，即在每个情节中独立训练一个单独的小模型，胜过一些现有的持续学习方法。附录D进一步讨论了这些结果。我们的目标是为持续学习的实践提供基础。我们相信，研究没有数据回放或单周期训练等问题设置是有好处的。但是，如果即使是一个简单的 "基线 "方法，即在每个事件中独立训练一个单独的小模型，也能轻松地胜过现有的方法，或者即使是少量的数据回放也能获得更好的准确性和前向-后向转移，那么我们就需要考虑问题的表述是否可能阻碍我们建立有效的算法。我们主张这些愿望应成为未来调查的重点

Remark

~~看不懂，破大防了~~