Raki的读paper小记:CLASSIC: Continual and Contrastive Learning of Aspect Sentiment Classification Tasks

82 篇文章 10 订阅
19 篇文章 3 订阅

Abstract & Introduction & Related Work

  • 研究任务
    • aspect sentiment classification in domain incremental learning
    • 对比持续学习
  • 已有方法和相关工作
    • 完善的只是新任务的学习,他们并没有处理灾难性遗忘的问题,每个任务使用一个单独的网络。
    • 基于胶囊网络
  • 面临挑战
  • 创新思路
    • 第一次在ASC领域探索持续学习
    • 结合了对比学习
    • 现有的对比学习使用现有数据(如图像)的各种转换(如旋转和裁剪)来生成数据的不同视图。然而,我们使用以前的任务模型中的隐藏空间信息来创建视图,以进行显式知识转移和提炼。现有的对比性学习无法做到这一点
  • 实验结论

ASC的说明如下。给出一个方面的术语(例如,手机评论中的声音质量)和一个包含该方面的句子(例如,“声音质量很差”),ASC对该句子是否表达了对该方面的积极、消极或中立的意见进行分类

(1) 本文提出了ASC的领域问题持续学习的问题,这在以前是没有尝试过的。
(2) 本文提出了一个新的模型,称为 CLASSIC的新模型,该模型使用适配器将预训练的BERT纳入ASC的持续学习中,是一种新的对比性持续学习方法。一种新颖的对比性持续学习方法,用于知识转移和提炼,以及任务掩码来隔离特定任务的知识,以避免灾难性遗忘

Proposed CLASSIC Method

所提出的技术CLASSIC采用了(Xu et al., 2019)中基于BERT的ASC表述,其中方面术语(例如,声音质量)和评论句(例如,“声音质量是 大”)通过[SEP]进行串联。情感 极性是在[CLS]标记的基础上预测的

如前所述,尽管BERT可以在单一任务上达到SOTA,但它的结构和微调架构不适合于CL (见第1节),表现非常差(第4.4节)。我们发现,(Houlsby等人)中的BERT适配器想法。2019)中的BERT适配器更适合于CL

BERT Adapter

AdapterBERT(Houlsby等人,2019)给出了这个想法,它在BERT的每个转换层中插入了两个2层全连接的网络(适配器)(图1(CSC))。在结束任务的训练期间,只有适配器和归一化层被更新。所有其他的BERT参数都被冻结。这对CL来说是好事,因为微调BERT会导致严重的遗忘。适配器-BERT实现了与微调BERT类似的精度(Houlsby等人,2019)

Overview of CLASSIC

使用adapter-bert来避免fine-tune bert

CLASSIC在训练中需要两个输入:
(1)来自BERT transformer层的前馈层的隐藏状态h(t)
(2)任务 i d t id_t idt(测试时不需要任务id,见3.2.3节)。输出是带有任务 t t t 特征的隐藏状态,以建立一个分类器
在这里插入图片描述
CLASSIC使用三个子系统来实现其目标(见第1节)。
(1) 对比集成蒸馏(CED),通过将以前的任务知识提炼到当前的任务模型中来减轻灾难性遗忘
(2) 对比知识共享(CKS),鼓励知识转移
(3) 对比监督学习(CSC):在当前任务模型上进行对比监督学习(CSC)以提高当前任务模型的准确性。我们把这个框架称为对比持续学习,其灵感来自于对比性学习

对比学习使用现有数据的多个视图进行表征学习,将相似的数据分组,并将不相似的数据推得很远,这使得学习一个更准确的分类器更加容易。它使用现有数据的各种转换来创建有用的视图。给定一个由N个训练例子组成的迷你批,如果我们为每个例子创建另一个视图,该批将有2N个例子。我们假设i和j是训练例子的两个视图。如果我们用i作为锚, ( i , j ) (i,j) (i,j) 被称为正样本对。所有其他 k ! = i k != i k!=i的对 ( i , k ) (i,k) (i,k) 都是负对。这个正样本对的对比性损失是

在这里插入图片描述
公式1适用于无监督的对比学习。它也可以用于有监督的对比学习,其中来自同一类别的任何两个实例/视图形成一个正数对,而一个类别的任何实例和其他类别的任何实例形成一个负数对

Overcoming Forgetting via Contrastive Ensemable Distillation (CED)

CED的目标是处理灾难性遗忘。我们首先介绍了CED所依赖的任务掩码,以保留以前的任务知识/模型,将其提炼到新的任务模型中,以避免灾难性遗忘

Task Masks (TMs)

任务mask:一个(可学习的)任务屏蔽被应用在激活函数之后,以选择性地激活一个神经元(或特征)。每个任务的四行对应于两个全连接层和它们相应的任务掩码。在训练前的神经元中,那些带有0的神经元是要保护的(被屏蔽的),那些没有数字的神经元是自由神经元(不使用)。在训练后的神经元中,那些带1的神经元表示对当前任务很重要的神经元,它们被用作未来的掩码。那些带有一种以上颜色的神经元表示它们被一个以上的任务所共享。那些没有颜色的0神经元不被任何任务使用
在这里插入图片描述

Contrastive Ensemble Distillation (CED)

TMs机制为不同的任务隔离了不同的参数 为不同的任务提供不同的参数。这似乎非常适合于 6875 因为以前的任务参数是固定的,不能被未来的任务所更新。任务更新。然而,由于DIL设置没有 任务ID,我们不能直接利用TM的优势。为了解决这个问题,我们 提出了CED目标,以帮助提炼所有以前的知识到当前的任务模型,这样 我们可以简单地使用最后一个模型作为最终模型 而不需要测试中的任务ID
在这里插入图片描述

Contrastive Supervised Learning of the Current Task (CSC)

在这里插入图片描述

总损失

在这里插入图片描述

Experiments

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Conclusion

本文研究了ASC任务序列的领域增量学习(DIL),而不知道测试中的任务ID。我们的方法CLASSIC使用Adapter来利用BERT,并在微调中处理BERT的灾难性遗忘,以及提出的对比性持续学习来转移跨任务的知识,并将以前的任务的知识提炼到当前的任务,以便最后的模型可以用于测试中的所有任务,不需要任务ID。我们的实验结果表明,CLASSIC的性能优于最先进的baseline。最后,我们认为,CLASSIC的理念也适用于其他一些NLP任务。例如,在命名实体提取中,我们可以建立一个更好的模型来从不同领域的文本中提取相同类型的实体。每个领域的工作任务相同,但没有数据共享(数据可能来自不同的客户,有隐私方面的考虑)。由于这是一个提取任务,骨干模型需要转换为提取模型

Remark

读到一半发现方法这么复杂,瞬间就不想读了…无语

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值