链接:https://openreview.net/forum?id=rklnDgHtDS
简介
在2019年之前,大多数终身学习(持续学习,LLL)主要应用于分类任务,有固定的输入和输出规模。
本文提出了一种新的持续学习场景:处理语言学习中常见的seq2seq的任务。
构建持续的语言学习模式,提高组合性理解能力,是本文研究的核心。更具体地说,我们通过连续学习来解决开放和增长的词汇问题的挑战。它需要优化两个目标:
- 将以前学到的知识转移,并与新的知识相结合。
- 习得的模型应该抵抗catastrophic forgetting,在这种情况下,适应新分布的模型不再适用于原始分布。
为了实现这些目标,我们使用组合性(compositionality)来分离输入句子的语义和语法,这样我们就可以将标签预测算法转换为序列算法来进行连续学习。
本文主要贡献有:
- 我们提出了一种新的连续学习场景,它处理了语言学习中常见的seq2seq的任务。
- 提出了一种利用组合性利用标签预测连续学习算法进行序列到序列连续学习的方法。据我们所知,这是第一个将组合性应用于序列到序列任务的持续学习的工作,目标是将知识转移到后阶段和预防前阶段的catastrophic forgetting。
- 实验结果表明,该方法在知识迁移和预防catastrophic forgetting两方面均有显著提高,在100个阶段的语言教学任务中准确率接近85%。它在机器翻译任务中也显示出显著的改进。
使用组合性的终身学习
问题定义
传统的连续学习大多运用于标签分类,其输入输出都是固定大小的。然而,在许多任务中,例如语言对话,输入和输出都是序列,其输入输出大小都是不确定的。
本文因此提出了一种将标签预测连续学习(LP-CL)组合成序列到序列连续学习(S2S-CL)的方法。
LP-CL:标签预测持续学习
标签预测是典型的分类问题:输入 x x x,输出 y , y ∈ V = { c 1 , c 2 , . . . , c K } y, y∈V= \{ c_1,c_2,...,c_K \} y,y∈V={
c1,c2,...,cK}。
举例而言,单词级的机器翻译便是一个标签预测:输入一个英文单词 x x x,输出一个中文词汇 y y y。
而在标签预测持续学习(LP-CL),在初始训练阶段, y y y属于 K K K个类之一, y ∈ V i n i t = { c 1 , c 2 , . . . , c K } y∈V_{init}= \{ c_1,c_2,...,c_K \} y∈Vinit={
c1,c2,...,cK}。
在持续学习阶段,我们有一个新类, y ∈ V c o u n t = { c K + 1 } y∈V_{count}= \{ c_{K+1} \} y∈Vcount={
cK+1}。
我们在初始训练阶段训练一个模型,在其余的训练阶段不再使用初始训练数据。然后我们在持续学习阶段切换到数据,并不断更新模型。
在测试阶段,我们评估模型是否可以预测初始和持续学习阶段的标签 y ∈ V i n i t ∪ V c o u n t y∈V_{init}∪V_{count} y∈Vinit∪Vcount。
我们将标签预测持续学习表示为 P ( y ∣ x ; θ ) P(y|x;θ) P(y∣x;θ)。
S2S-CL:序列到序列连续学习
对于序列到序列的连续学习(S2S-CL),我们考虑序列输入 X = x 1 , x 2 , … , x n X = x_1, x_2,…, x_n X=x1,x2,…,xn和输出 Y = y 1 , y 2 , . . . , y m Y = y_1, y_2,...,y_m Y=y