Taming Pre-trained Language Models with N-gram Representations for Low-Resource Domain Adaptation

域间隙在很大程度上是由域特定的n-grams引起的。受其启发,我们提出了一种Transformer-based Domain-aware N-gram Adaptor(T-DNA),以有效地学习和合并新领域中不同单词组合的语义表示。通过结合N-gram表示来弥补源词汇和目标词汇之间的领域差距。

1 The T-DNA

我们的方法遵循标准的预训练和微调语言模型,该模型接收句子 X = t 1 t 2 ⋅ ⋅ ⋅ ⋅ t i ⋅ ⋅ ⋅ t T X=t_1t_2····t_i···t_T X=t1t2⋅⋅⋅⋅ti⋅⋅⋅tT,其中 t i t_i ti 表示第 i 个token。我们的方法的总体架构如图2所示。中间是一个通用的预训练编码器(例如BERT或RoBERTa),在没有任何目标域知识的情况下提供子词级的表示。右侧是提出的T-DNA,以增强骨干预训练编码器,其中在X中基于单词的n-gram是从预先构建的词典L中提取的,并通过n-gram注意力模块表示。左侧是n-gram匹配矩阵以及特定领域表示和通用编码的集成过程。

在这里插入图片描述

1.1 Lexicon Construction and N-gram Extraction

为了更好地表示和合并看不见的和特定于领域的n-gram,我们首先需要找到并提取它们。在这里,我们使用一种无监督的方法,逐点互信息 pointwise mutual information(PMI),通过单词之间的搭配和关联来找到特定领域的单词和短语。

给定一个句子 X = x 1 x 2 ⋅ ⋅ ⋅ x K X=x_1x_2···x_K X=x1x2⋅⋅⋅xK,其中有K个单词,对于句子中的任何两个相邻单词(例如 x ˉ \bar{x} xˉ, x ~ \tilde{x} x~),PMI计算如下:

在这里插入图片描述

其中 p ( x ) p(x) p(x 是n-gram x的概率。当在相邻的 x ˉ \bar{x} xˉ x ~ \tilde{x} x~之间检测到高PMI得分时,这表明它们是很好的搭配对,因为它们共现的概率很高,更有可能形成n-gram。相反,如果两个相邻单词的 PMI( x ˉ \bar{x} xˉ, x ~ \tilde{x} x~ )小于阈值σ,则在它们之间插入分隔符,即 X = x 1 x 2 ⋅ ⋅ ⋅ x ˉ / x ~ ⋅ ⋅ ⋅ ⋅ x K X=x_1x_2···\bar{x}/\tilde{x}····x_K X=x1x2⋅⋅⋅xˉ/x~⋅⋅⋅⋅xK,最后那些没有分隔符的连续单词被识别为候选域特定的n-grams。在使用PMI对目标任务的训练集中的每个句子进行分段后,我们可以在候选n语法中进行选择,以获得最终的 n-gram 词典L,其中每个n语法出现的频率至少为 f f f

根据该词典,对于每个带有 T 个标记的训练输入句子 X = t 1 t 2 ⋅ ⋅ ⋅ t i ⋅ ⋅ ⋅ t T X=t_1t_2···t_i···t_T X=t1t2⋅⋅⋅ti⋅⋅⋅tT,其中 t i t_i ti 表示 X 的第 i 个token,我们提取词典中存在的 X 的子串,以形成特定于领域的 n 元序列 S = s 1 s 2 , ⋅ ⋅ ⋅ , s j , ⋅ ⋅ , s N S=s_1s_2,···,s_j,··,s_N S=s1s2,⋅⋅⋅,sj,⋅⋅,sN,其中 s j s_j sj 表示 X 的第 j 个n-gram。同时,可以建立一个n-gram匹配矩阵, M ∈ R T × N M∈R^{T×N} MRT×N,以记录提取的域特定 n-gram 集及其相关tokens,其中,对于 t i ∈ s j t_i∈s_j tisj m i j = 1 m_{ij}=1 mij=1;对于 t i ∉ s j t_i∉s_j ti/sj m i j = 0 m_{ij}=0 mij=0

1.2 Domain-aware Representation

预训练编码器是一种Transformer架构,具有从任何预训练编码器(例如BERT或RoBERTa)初始化的L层、S个自注意头和H个隐藏维度。输入语句通过它为每个输入标记 x i x_i xi 生成一个通用的隐藏状态 h i h_i hi。为了获得领域感知的隐藏表示,n-gram适配器网络由具有 l 层、S个自注意头和H个隐藏维度的Transformer编码器实现。首先,域特定的n-gram的嵌入可以通过n-gram嵌入层获得,然后将它们馈送到n-gram编码器中,以通过多头注意机制获得隐藏状态 g 的序列。n-gram编码器能够对所有提取的 n-grams 之间的交互进行建模,并动态加权n-gram以强调真正有用的n-gram,并忽略有噪声的信息。通用表示和领域特定的n-gram表示的组合由以下公式计算:

在这里插入图片描述

其中, h i ′ h'_i hi 是所需的域感知表示, g i , k g_{i,k} gi,k 是根据匹配矩阵 M 得到的第 i 个token和与该token相关联的第 k 个n-gram的隐藏状态。n-gram 编码过程和隐藏状态整合与从底部开始的 l 层的通用编码器一起逐层重复。

1.3 Training Strategies

训练策略采用了两种:微调(FT)和任务自适应预训练(TAPT)。为了进行微调,我们对特殊分类标记[CLS]的隐藏状态进行操作。按照传统的引用,我们只需在模型的顶部添加一个全连接层作为分类器,并通过softmax层获得概率。分类器和整个模型在具有交叉熵损失的目标域中对标记的任务数据进行微调。为了注入无监督的目标领域知识,我们利用(Gururangan et al,2020)中提出的任务自适应预训练,该预训练剥离下游任务训练数据中的标签,并在该未标记数据上训练模型。我们使用掩蔽语言模型(MLM)作为我们的目标,并且不包括 NSP 任务。

注意,我们的模型还支持其他训练策略,如领域自适应预训练。 一开始可以在更大的领域语料库(通常超过10GB)上预训练我们的模型,然后进行任务自适应预训练和微调。

2 Experiment Settings

2.1 Datasets

我们对生物医学、计算机科学、新闻和评论等四个领域的八项分类任务进行了实验。

CHEMPROT,一个手动注释的化学-蛋白质相互作用数据集,从5031篇摘要中提取,用于关系分类。

RCT,包含约20万篇公共医学摘要。

CITATIONINTENT ,包含约2000篇关于其功能的引文注释。

SCIERC,由500篇为关系分类注释的科学摘要组成。

HYPERPARTIAN,包含645篇来自超党派新闻的文章,这些文章的极端左翼或右翼立场用于党派分类。

AGNEWS,由来自2000多个新闻来源的127600篇分类文章组成,用于主题分类。

AMAZON,由145251条关于女性和男性服装与配饰的评论组成,并带有一个二进制标签,表示大多数客户是否认为该评论有帮助。

IMDB,来自互联网电影数据库的50000条平衡的正面和负面评论,用于情感分类。

在这里插入图片描述

2.2 Implementation

macroF1用于Citation Intent、SciERC、HyperPartisan、AGNews、Amazon、IMDB,micro-F1用于ChemProt和RCT作为评估指标,因为如果存在类别不平衡,则micro-F1是优选的。

我们实现了RoBERTa基础架构,并通过Huggingface的Transformers库使用预先训练的权重对其进行初始化。为了获得n-gram表示,我们使用fastText来初始化n-gram嵌入。考虑到数据量较小,并根据我们的经验,将N-gram编码层的数量 l 设置为1。

对于无监督任务自适应预训练(TAPT),批量大小设置为16,训练epoch范围从10到15。我们采用Adam作为优化器,在我们的代码中可以找到不同数据集的相应学习率。dropout率设置为0.5。对于特定任务的微调(FT),见下表:

在这里插入图片描述
在这里插入图片描述

2.3 Results

在这里插入图片描述
ROBERTA+TAPT:从ROBERTA开始在未标记的任务数据上进行任务自适应预训练,然后在标记的数据上进行微调。

根据这一结果,我们认识到,当域间隙较大时,我们所提出的方法更适用。

总体而言,对于FT和TAPT实验,结果表明,基于通用的预训练模型,T-DNA显著提高了结构域适应性能。

2.4 Analyses

2.4.1 Effects of Different Granularities

在这里插入图片描述

注意,这里的 N 意味着我们提取并合并所有长度小于或等于N(在一定粒度内)的n-gram。例如,N=3意味着我们包括所有的unigrams, bigrams 和 trigrams。

通用编码器中的token在子字级别,而我们的unigram在字级别,这可以被视为子字的组合。因此,研究结果表明,通过我们的适配器网络添加看不见的单词是有效的,这可以增强同一单词的子单词之间的交互,特别是对于目标域中的新词。

2.4.2 Effects of Data Size

在这里插入图片描述

具有T-DNA的模型可以很容易地适应任何大小的数据集,但我们的方法的性能增益随着训练数据量的增加而衰减。

2.4.3 Visualization of N-gram Representations

我们通过使用LIT工具绘制注意力图和显著性图来研究RoBERTa和T-DNA的注意力机制:

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值