【Lifelong learning】Efficient Meta Lifelong-Learning with Limited Memory

链接:http://arxiv.org/abs/2010.02500

简介

实现lifelong learning的最大问题便是catastrophic forgetting(机器会把之前的知识忘了)。如何对抗catastrophic forgetting?目前的主流方法有三种:

  1. 正则化:学习新的任务时候,我们让参数不要变化太大(不然就没法做之前的任务了)。
  2. 复述REPLAY:学完一个任务后,存储一些样例,以便之后学新任务的时候使用。
  3. 架构Architectural:为每个任务向现有的基本模型添加特定于任务的参数。当然,也有容量固定的做法,但主要在CV领域使用,一般不好做nlp终身学习。

本文采取了第二种方法。
在本文(2020)年之前,Replay在nlp的应用集中在文本分类和QA,但有三个缺点:

  1. 要存的太多:我们需要一个超大的内存模块,即存储所有训练示例,以实现最佳性能。
  2. 还是会倒退:虽然该模型可以减轻灾难性遗忘,但其局部适应步骤容易产生负迁移,以至于在最近的任务中表现不如没有任何终身学习规则化的朴素基线。
  3. 太慢:它的推理速度非常慢,因为每个测试示例都需要大量的局部自适应步骤。

对此,本文的主要贡献有3点:

  1. 我们确定了终身学习方法的三个基本原则。我们试图在语言学习中描述它们的特点,并收集现有方法中被忽视的缺点的见解。
  2. 基于这一分析,我们提出了一个统一这三个原则的meta-lifelong框架。我们的方法是d 'Autume等人(2019)的直接扩展,它明确地将元学习模型作为局部适应的更好初始化。
  3. 我们进行了大量的实验,以证明我们提出的方法可以利用上述三个原则来实现高效的终身语言学习。我们发现,我们的框架比以前的方法性能更好,同时使用的内存减少了100倍。实验结果表明,该方法能够有效地缓解灾难性遗忘和负迁移,缩小了与多任务学习上限的性能差距。它还可能获得22倍的推理速度。

终身学习的三个基本原则

首先,我们明确一下终身学习的任务形式:
模型按顺序学习 D t r a i n = { D 1 t r a i n , D 2 t r a i n , . . . , D n t r a i n } D^{train}=\{ D^{train}_{1},D^{train}_{2},...,D^{train}_{n} \} Dtrain={ D1train,D2train,...,Dntrain}共n个任务。
每个任务 D t t r a i n = { ( x t i , y t i ) } i = 1 n t D^{train}_{t}=\{ (x^i_t,y^i_t)\}^{n_t}_{i=1} Dttrain=

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值