Continual Learning for Text Classification with Information Disentanglement Based Regularization

82 篇文章 10 订阅
19 篇文章 3 订阅
本文提出了一种基于信息解纠缠的正则化(IDBR)方法,用于解决持续文本分类中的遗忘问题。该方法将隐藏空间划分为任务通用和任务特定两部分,并对它们进行不同的正则化。实验在多个数据集上展示了IDBR优于经验回放和简单正则化,且在任务序列增长时遗忘率较低,证明了其在持续学习中的有效性。
摘要由CSDN通过智能技术生成

Abstract & Introduction & Related Work

  • 研究任务
    文本分类持续学习
  • 已有方法和相关工作
    • 基于回放的模型
    • 基于正则化的模型
  • 面临挑战
  • 创新思路
    • 我们提出的方法首先将文本隐藏空间分解为所有任务的通用表示和每个单独任务的特定表示,并进一步以不同的方式对这些表示进行调整,以更好地约束概括所需的知识
    • 我们还介绍了两个简单的辅助任务:下一句预测和任务id预测,用于学习更好的泛型和特定表示空间
  • 实验结论
    • sota
  1. 把信息分解成一般信息和任务特定的信息
  2. 使用了repaly

Method

在持续学习中,模型需要快速适应新的任务,同时保持从以前的任务中恢复信息的能力,因此不应该平等地对待存储在隐藏表示空间中的所有信息

Information Disentanglement (ID)

使用两个任务训练两个不同的网络来抽取不同信息,对于新任务,我们利用两个空间的信息学习分类器,并允许不同的空间进行不同程度的更改,以最好地保留以前任务中的知识
在这里插入图片描述

Task Generic Space

二分类,损失函数
在这里插入图片描述

Task Specific Space

模型还需要任务特定信息,才能在每个任务中表现良好。例如,在情绪分类中,像“好”或“坏”这样的词可能会提供大量信息,但它们可能无法很好地概括主题分类等任务。因此,我们在特定于任务的表示上使用了一个简单的任务标识符预测任务,这意味着对于任何给定的样本,我们都想区分这个样本属于哪个任务。这个简单的辅助设置将鼓励用户嵌入来自不同任务的不同信息。任务标识符预测器 f t a s k f_{task} ftask的损失为

在这里插入图片描述

Text Classification

把两个向量concat到一起然后进行分类
在这里插入图片描述

ID Based Regularization

在训练任务t的所有模块前,我们首先对当前任务t的训练集 S t S_t St和 memory buffer M t M_t Mt 计算通用表示和特别表示
在这里插入图片描述

Memory Selection Rule

由于我们只存储少量示例,以平衡重播以及额外的内存成本和训练时间,因此我们需要仔细选择它们,以便有效地利用内存缓冲区M。考虑到如果两个存储的示例非常相似,那么只存储其中一个可能在将来获得相似的结果。因此,这些存储的示例应尽可能多样化和具有代表性。为此,在对第t个任务进行训练后,我们使用K-means(MacQueen et al.,1967)对当前训练集 S t S_t St 中的所有示例进行聚类:每个 x ∈ S t x∈ S_t xSt,我们利用其嵌入 B ( x ) B(x) B(x) 作为输入特征来进行K-means。我们将簇数设置为 γ ∣ S t ∣ γ|S_t| γSt ,并仅选择最接近每个簇质心的示例

Overall Objective

在这里插入图片描述
为了简单起见,我们将前三个损失项的系数设为1,只引入两个系数进行调整: λ g λ^g λg λ s λ^s λs。 在实践中, L t a s k \mathcal{L_task} Ltask L c l s \mathcal{L_cls} Lcls 也是对每个生成的 N o t N e x t NotNext NotNext 例子 x ^ \hat{x} x^ 进行的, L r e g g L^g_{reg} Lregg L r e g s L^s_{reg} Lregs 只从第二个任务开始优化。完整的基于信息反切的正则化(IDBR)算法见算法1

在这里插入图片描述

Experiment

使用的数据集,我们合并了亚马逊和Yelp的标签空间。考虑到它们的领域相似性,我们合并了亚马逊和Yelp的标签空间到33类(本来有38类)
在这里插入图片描述
由于资源的限制,在我们大部分的实验中,我们通过随机抽取2000个训练实例2000个验证实例来创建一个缩小的数据集。每个任务的每一类的验证例子。参见表1为每个数据集的训练/测试规模。我们 我们将这种设置命名为设置(抽样)。我们将所有的 超参数都是在Setting (Sampled)的基础上进行的。除此之外,为了与以前的sota进行比较,我们还在相同的训练集和测试集上进行了实验。在与MbPA++相同的训练集和测试集上进行实验。(de Masson d’Autume et al., 2019) 和LAMOL (Sun et al., 2019),其中包含115,000个训练 每个任务包含115,000个训练实例和7,600个测试实例。

对于每项任务,我们从训练实例中随机抽出每类500个实例用于验证 目的。我们将后者命名为设置(Full)。在训练过程中,我们在所有任务的验证集上评估我们的模型。在训练过程中,我们按照Kirkpatrick等人的方法,对所有看到的任务的验证集进行评估

我们的实验主要是在 表2中所示的任务序列。为了尽量减少任务顺序和任务序列长度对结果的影响。结果的影响,我们同时检查了长度为3的任务序列 和长度为5的任务序列的不同顺序。前3个任务序列 前3个任务序列是一个周期性的转移,即ag yelp yahoo,它们是不同领域的三个分类任务(新闻分类、情感分类)。不同领域的分类任务(新闻分类、情感分析、问答分类)。分析、问答分类)。最后4个长度5的任务序列遵循de Masson d’Autume等人的意见
在这里插入图片描述

我们使用来自HuggingFace Transformers(Wolf等人,2020)的基于BERT的预训练----uncased作为我们的 基础特征提取器。任务通用编码器和特定任务编码器都是一个线性层 后面有激活函数T anh,它们的输出大小都是128维。建立在编码器上的预测器 编码器的预测器都是一个线性层,后面有 激活函数为 T m a x T_{max} Tmax

我们在对所有任务进行训练后对模型进行评估,并将其在所有测试集上的平均准确率作为我们的报告他们在所有测试集上的平均准确度作为我们的衡量标准。表3总结了我们在Setting (采样)。虽然持续的微调会受到遭受了严重的遗忘,而用1%的经验重放储存的例子取得了令人鼓舞的结果,这 证明了经验重放对于NLP的持续学习的重要性。除此之外,简单的正则化被证明是一个强大的方法 在经验回放的基础上,它显示了在所有6个顺序上都有一致的改进。我们提出的基于信息纠缠的正则化(IDBR)进一步改进了正则化 在所有情况下都能持续改进。
表4将IDBR与以前的SOTA进行了比较:MBPA++和LAMOL的设置(全)。注意 虽然我们使用相同的训练/测试数据。我们的设置和以前的SOTA方法之间存在一些内在的差异。尽管事实上MBPA++在测试时应用了局部适应,但IDBR仍然以明显的优势胜过它

我们取得了与LAMOL相比较的结果,尽管LAMOL在推理过程中需要任务标识符,这使得它的预测任务变得更加复杂。尽管LAMOL在推理过程中需要任务标识符,这使得它的预测任务更加容易。
在这里插入图片描述
其中 a l , j a_{l,j} al,j 是模型在任务 l l l 上训练后在任务j上的准确度。在第4、第5和第6阶上,我们在IDBR被训练后每次都计算遗忘。计算IDBR在新任务上训练后每次的遗忘率,并将其总结在表5中。在一个新的任务上训练后,我们每次都计算遗忘,并在表5中总结。对于持续的学习,我们假设 模型容易遭受更严重的遗忘,因为任务序列变得更长。我们 我们发现,虽然在第3个任务的训练后,IDBR的性能有了很大的下降,但随着任务序列长度的增加,IDBR的性能保持稳定。的增加,特别是在第4个和第5个任务的训练后,IDBR的性能保持稳定。任务后,遗忘的增量相对较小。这证明了IDBR的稳健性
在这里插入图片描述
解除纠缠的效果为了证明我们的信息解除纠缠的每个模块都有助于学习过程,我们以订单5为例对两个辅助任务进行了消融研究. 结果总结在表6中。我们发现,任务ID预测和下一句话预测都对最终的性能有所贡献。此外,将这两个任务结合起来,性能的提高而且,将这两个辅助任务结合在一起,性能增益要大得多。任务结合在一起。直观地说,该模型需要这两个 任务才能很好地拆分表征,因为 因为如果不适当地施加约束,模型很容易忽略其中一个空间 因为如果不适当地施加约束,模型很容易忽略其中一个空间。结果显示结果表明,这两个任务很可能在帮助模型学习 更好的分解表征
在这里插入图片描述
在这里插入图片描述
为了研究我们的任务通用编码器G是否倾向于倾向于学习更多的通用信息,而特定任务编码器S捕获更多的特定任务信息。我们使用t-SNE(van der Maaten和Hinton,2008年) 来可视化IDBR的两个隐藏空间,使用 训练的最终模型,其结果见图2。结果显示在图2中,其中图2a可视化了图2a显示了任务通用空间,图2b显示了任务具体空间。我们观察到,与任务特定空间相比,来自不同任务的通用特征 更加混合,这表明下一句话的预测有助于任务通用空间。句子预测帮助任务通用空间比任务特定空间 比具体任务空间更具有任务诊断性。诱导学习不同任务的独立表征 不同的任务。考虑到我们只采用了两个简单的辅助性任务,信息的效果分离的效果是明显的
在这里插入图片描述

Conclusion

在这项工作中,我们引入了一种基于信息拆分的正则化(IDBR)方法,用于持续的文本分类,我们将隐藏空间拆分为任务通用空间和任务特定空间,并进一步对它们进行不同的正则化。我们还利用K-Means作为记忆选择规则,帮助模型从增强的外显记忆模块中获益。在五个基准数据集上进行的实验表明,与以前最先进的基线相比,IDBR在一系列具有不同顺序的文本分类任务上取得了更好的表现。顺序和长度不同的文本分类任务上,IDBR取得了更好的表现。长度。我们相信,所提出的方法可以被扩展到 扩展到其他NLP任务的持续学习中去 如序列生成和序列标记 也可以,并计划在未来对其进行探索

Remark

是接下来需要对比与改进的baseline

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值