PDALN: Progressive Domain Adaptation over a Pre-trained Model for Low-Resource Cross-Domain NER

0 Abstract

progressive domain adaptation Knowledge Distillation (KD) approach – PDALN
三个组成部分:(1)自适应数据增强技术,它同时缓解了跨域间隙和标签稀疏性;(2) 多层次领域不变特征,源自多粒度训练MMD(最大平均差异)方法,以实现跨领域的知识转移;(3) 高级KD模式,它逐渐使强大的预训练语言模型能够执行领域自适应。

1 Introduction

现有的方法主要引入单词级或话语级的领域适应,以实现跨领域NER。为了缓解单词水平的差异,先前的研究提出了分布式单词嵌入、标签感知最大平均差异估计和投影学习。关于话语层面的差异,现有的方法引入了多层次的适应层、张量分解和利用外部信息的多任务学习。然而,这些方法需要足够的标记数据,这阻碍了它们在低资源场景下的性能。为了解决标签稀疏性和域转移问题,现有的方法利用外部资源为低资源域生成伪标签。然而,由于噪声,低置信度的标签可能会降低模型的鲁棒性。

PDALAN解决了两种低资源场景下的单词和话语级领域自适应问题:无监督和半监督跨领域NER。我们首先通过跨域锚对来增强混合域训练数据,这缓解了注释目标域的稀疏性。接下来,我们通过从多训练MMD自适应度量中学习的领域不变特征来实现跨领域的知识转移。此外,我们将对比学习、与预先训练的模型相融合,以提取稳健的特征。最后,我们没有在基于MMD的度量下直接对增强自适应数据上的模型进行微调,而是将跨域NER模型集成到序列KD框架中,以学习低容量学生模型。低能力的学生可以避免对有限的注释数据进行过度拟合,因为它逐渐只关心由其连续教师检索的一般跨领域特征,以提高模型对领域不变特征的置信度。

我们的主要贡献总结如下:
•我们提出了一种低资源跨域NER模型PDALN,在没有外部检索辅助的情况下,将多层次领域不变知识从高资源源域转移到最小资源目标域。此外,PDLN可以在零资源和最小资源的情况下执行。

•我们为低资源领域设计了一种自适应数据扩充。此外,我们在自适应数据上提出了一个多粒度的领域自适应度量,以探索单词级和话语级的领域不变特征。我们以渐进的自我训练方式利用对比学习融合的预训练语言模型来增强特征提取。

2 Problem Definition

NER是将标签序列 Y = [ y 1 , … , y N ] Y=[y_1,…,y_N] Y[y1,,yN] 分配给具有N个标记的给定句子 X = [ x 1 , … , x N ] X=[x_1,…,x_N] X[x1,,xN]。实体是与实体类型关联的标记 e = [ x i , … x j ] e=[x_i,…x_j] e=[xi,xj](1≤i≤j≤N)的跨度。

在无监督的NER域自适应中,源域 { ( X m s , Y m s ) (X^s_m,Y^s_m) (Xms,Yms)} m = 1 N s ^{N_s}_{m=1} m=1Ns,目标域 { X m t X^t_m Xmt} m = 1 N t ^{N_t}_{m=1} m=1Nt。源域和目标域分别由概率分布 P s P_s Ps P t P_t Pt 来表征。我们建立一个分类器 F = F ( X ; θ ) F=F(X;θ) F=F(X;θ),该分类器可以使用源监督来最小化目标预测误差。对于低资源跨域NER,它是一种半监督自适应,源域数据 D s = D_s= Ds={ ( X m s , Y m s ) (X^s_m,Y^s_m) (Xms,Yms)} m = 1 N s ^{N_s}_{m=1} m=1Ns,未注释的目标数据 D t u = D^{t_u}= Dtu={ X i t u X^{t_u}_i Xitu} i = 1 N u ^{N_u}_{i=1} i=1Nu,以及注释的目标信息 D t a = D^{t_a}= Dta={ X j t a , Y j t a ) X^{t_a}_j,Y^{t_a}_j) Xjta,Yjta)} j = 1 N a ^{N_a}_{j=1} j=1Na D t = D t u ∪ D t a D^t=D^{t_u}∪D^{t_a} Dt=DtuDta是总目标数据。

3 Preliminary

3.1 Base Model

BERT将句子 X = [ x C L S , x 1 , … , x N , x S E P ] X=[x_{CLS},x_1,…,x_N,x_{SEP}] X=[xCLS,x1,,xN,xSEP] 编码为句子表示 h = [ h C L S , h 1 , … , h N , h S E P ] h=[h_{CLS},h_1,…,h_N,h_{SEP}] h=[hCLS,h1,,hN,hSEP]。任务目标表示为CRF损失,其中 L c r f = l o g p ( Y ∣ X ) \mathcal{L}_{crf}=log p(Y|X) Lcrf=logp(YX)

在这里插入图片描述

其中 l o g ϕ n ( y i = j ∣ h i , V ) = e x p ( V j T h i ) log\phi_n(y_i=j|h_i,\mathbf{V})=exp(\mathbf{V}^T_jh_i) logϕn(yi=jhi,V)=exp(VjThi) h i h_i hi 是编码的上下文化单词向量, V \mathbf{V} V 是权重矩阵。 A \mathbf{A} A 是转移矩阵 ϕ e \phi_e ϕe 的参数。 Z ( ⋅ ) \mathbf{Z}(·) Z() 是归一化常数。

3.2 Maximum Mean Discrepancy (MMD) Measurement

MMD是在测量跨域分布 ( P s , P t ) (P_s,P_t) (Ps,Pt) 差异的特定函数空间 H k H_k Hk 中定义的。 H k H_k Hk 是具有特征核k的 Reproducing Kernel Hilbert Space(RKHS)。MMD的平方公式 d k 2 ( P s , P t ) d^2_k(P_s,P_t) dk2(Ps,Pt) 定义为:

在这里插入图片描述

其中 φ : X → H k \varphi:X→H_k φ:XHk 最重要的性质是当 d k 2 ( P s , P t ) = 0 d^2_k(P_s,P_t)=0 dk2(Ps,Pt)=0 时, P s = P t P_s=P_t PsPt。与特征图相关联的特征核 φ \varphi φ 和高斯核 k ( D s , D t ) k(D^s,D^t) k(Ds,Dt)

为了计算跨域NER中的MMD损失,我们首先计算源/目标样本的BERT表示之间的MMD的平方公式:

在这里插入图片描述
其中 H s H_s Hs H t H_t Ht 是具有相应数目 N s N_s Ns N t N_t Nt 的BERT嵌入 h s h_s hs h t h_t ht 的集合。

4 The Proposed Model

在本节中,我们介绍了所提出的模型的结构。我们首先介绍领域自适应组件。一方面,我们设计了一种自适应数据增强来解决标签稀疏性问题。另一方面,我们在增强自适应数据上引入了一种多重训练MMD度量来提取域不变特征。图1直观地展示了我们的领域自适应方法如何缓解领域转移。此外,我们利用预训练模型的强大功能来捕捉有表现力的数据特征。我们集成了一个顺序的自我训练策略,以逐步有效地执行我们的领域自适应组件,如图2所示。

在这里插入图片描述

在这里插入图片描述

4.1 Cross-domain Adaptation

我们通过跨域锚点对来增强混合域数据。这些增强数据被定义为自适应数据,可以缓解数据不足的问题。我们的自适应数据旨在同时缓解单词水平和话语水平上的领域差距。这些自适应数据形成了一个自适应空间,如图1所示,它桥接了两个领域,用于跨领域知识转移。

4.1.1 Adaptive Data Augmentation

我们首先给出了跨域锚点的定义。源域中的实体由标签为 [ y i s s , … y j s s ] [y^s_{i^s},…y^s_{j^s}] [yiss,yjss] e s e^s es 表示。目标实体为标签为 [ y i t t , … y j t t ] [y^t_{i^t},…y^t_{j^t}] [yitt,yjtt] e t e^t et。跨域锚对为 M A n c h o r = M_{Anchor}= MAnchor={ ( e s , e t ) , y i s s = y i t t (e^s,e^t),y^s_{i^s}=y^t_{i^t} (es,et),yiss=yitt}。跨域锚点是来自不同域的两个实体之间的关系。 y i s s = y i t t y^s_{i^s}=y^t_{i^t} yiss=yitt 表示当两个实体的第一个标签相同时,它们属于相同的实体类型。直观地,锚对通过按NER类型跨域共享单词来解决跨域单词差异。

然后,我们使用跨域锚对 M A n c h o r M_{Anchor} MAnchor 来创建自适应数据 D a u g D^{aug} Daug。假设我们有 e p e^p ep,其中p∈{s,t}, e p e^p ep∈X p = [ x 1 p , … , x i p p , … x j p p , … , x ∣ X p ∣ p ] p=[x^p_1,…,x^p_{i^p},…x^p_{j^p},…,x^p_{|X^p|}] p=[x1p,,xipp,xjpp,,xXpp]。给定一个锚对 ( e p , e q ) (e^p,e^q) (ep,eq) M A n c h o r M_{Anchor} MAnchor,其中q ∈{s,t},q≠p,我们用 e q e^q eq 代替 X p X^p Xp 中的 e p e^p ep 作为增广自适应数据 X p ′ = [ x 1 p , … , x i q q , … x j q q , … , x ∣ X p ∣ p ] X^{p'}=[x^p_1,…,x^q_{i^q},…x^q_{j^q},…,x^p_{|X^p|}] Xp=[x1p,,xiqq,xjqq,,xXpp]。最后,我们得到了自适应数据 D a u g D^{aug} Daug= X p ′ X^{p'} Xp

直觉上,增广自适应句子被视为跨域共享句子模式的混合域增广数据。这种语义或句法相似的句子是自适应数据,可以探索目标域中的未知区域。图1(b)所示的灰色空间表示自适应空间,它由自适应句子组成,如“The Australia firm’s parent company.”和“San Francisco will play three one day internationals.”。这两个句子由跨域锚对(“Australias”,“San Francisco”)扩充,这两个词都被分配给标签“LOC”。当对自适应数据进行模型微调时,模型可以受益于从自适应空间获取的跨域特征,以提高模型在低资源目标域上的可推广性。

4.1.2 Multi-grained MMD for Domain-invariant Features

如上所述,自适应空间函数被视为跨域桥梁。在这一部分中,我们试图加强其领域适应性,并进一步聚合跨领域特征。我们采用领域自适应MMD来收集具有相似单词和句子特征的数据点,如图1(c)所示。由于MMD是计算两个域均值之间差的范数,因此基于MMD的NER目标可以学习判别式和域不变表示。我们提出了多粒度MMD方法来同时缓解单词层面和话语层面的差异。

为了区分单词层面和话语层面的适应,我们提出了单词MMD损失和句子MMD损失,分别用 L M M D w L^w_{MMD} LMMDw L M M D d L^d_{MMD} LMMDd表示。

在这里插入图片描述

其中 H C L S H_{CLS} HCLS 是CLS令牌嵌入的集合。CLS是预先训练的语言模型中标记CLS的语句池输出。单词级MMD损失由相同的标签y∈label={B-X,I-X,O}表示:

在这里插入图片描述

其中 µ y µ_y µy 是相应的系数。 H y H_y Hy 是具有标签y的令牌嵌入的集合。

最后,句子及其表征是领域不变特征,它在 L M M D d L^d_{MMD} LMMDd L M M D w L^w_{MMD} LMMDw 的指导下捕获跨领域知识。如图1(c)所示,域不变特征在自适应空间周围收集样本,以帮助对源域和目标域进行自适应。

4.2 Self-training for Low-Resource Domain Adaptation(DA)

4.2.1 Robust Feature Adaptation

考虑到源域和目标域上有限的词汇和噪声数据样本,我们采用对比学习,通过同义词替换和跨度删除等文本增强来提取鲁棒特征。我们在给定的数据集D={(X,Y)}上构造了一个失真的数据集 D c = D^c= Dc={(X’,Y’)}

在这里插入图片描述

其中 z = W T h C L S z=W^Th_{CLS} zWThCLS 是句子 X 的映射向量。W是一个可训练的参数。 z ˉ = W T h ˉ C L S \bar{z}=W^T\bar{h}_{CLS} zˉWThˉCLS 是 X’ 的映射向量,通过在X上操作同义词替换或跨度删除来扩充。 Z n e g Z^{neg} Zneg 是由 D ∪ D c D∪D^c DDc 中除 X 和 X’ 以外的其他句子构造的。τ是一个温度超参数。

4.2.2 Low-Resource Objectives

为了解决低资源场景,我们考虑了零资源和最小资源跨域NER训练设置。我们首先在源域和目标域上执行基本模型,通过多粒度MMD自适应来寻找跨域桥接。无监督跨域NER损失表示为:

在这里插入图片描述

其没有任何注释的目标实例但仍然能够通过 L M M D d ( D s , D t u ) L^d_{MMD}(D^s,D^{t_u}) LMMDd(Ds,Dtu)进行域自适应。

半监督跨域NER目标表示为:

在这里插入图片描述

4.2.3 Progressive Joint KD and DA

我们提出了一种渐进的领域自适应,通过顺序师生框架来防止模型在有限的标记数据和增强的自适应数据上过度拟合。学生很容易忽略“有问题”的例子,但学习到的东西概括得很好。因此,KD框架的优点是它逐渐提高了数据的领域自适应置信度。

自适应数据上的跨域NER损失表示为:

在这里插入图片描述

在渐进KD框架中,我们分别使用 f θ t e a f_{θ_{tea}} fθtea f θ s t u f_{θ_{stu}} fθstu 来表示教师和学生模型。假设 f θ ^ f_{\hat{θ}} fθ^ 是方程9中目标学习的基本模型,我们将教师模型和学生模型初始化为: θ t e a ( 0 ) = θ s t u ( 0 ) = θ ^ θ^{(0)}_{tea}=θ^{(0)}_{stu}=\hat{θ} θtea(0)=θstu(0)=θ^

在第t次迭代时,学生模型损失表示为:

在这里插入图片描述

其中X∈ D a u g D^{aug} Daug,包含N个实体。 f ⋅ , n ( X ) f_{·,n}(X) f⋅,n(X)表示实体n的输出。

更新后的模型为: θ ^ s t u ( t ) = a r g m i n θ s t u L d i s t i l l \hat{θ}^{(t)}_{stu}=argmin_{θ_{stu}}\mathcal{L}_{distill} θ^stu(t)=argminθstuLdistill

最后,我们对第(t+1)次迭代的师生模型进行了更新,更新方式为: θ t e a ( t + 1 ) = θ s t u ( t + 1 ) = θ ^ s t u ( t ) θ^{(t+1)}_{tea}=θ^{(t+1)}_{stu}=\hat{θ}^{(t)}_{stu} θtea(t+1)=θstu(t+1)=θ^stu(t)

5 Experiments

5.1 Datasets

源域和目标域中的数据集包含相同的四种类型的实体,即PER(个人)、LOC(位置)、ORG(组织)和MISC(杂项)。我们的源域是CoNLL-2003英语NER数据,其中包含用于训练/验证/测试集的15.0K/3.5K/3.7K样本。我们考虑四个目标doamins:(1)SciTech,2K句的新闻;(2) WNUT 2016包含2400条推文(包括3.4k个tokens),具有10种实体类型;(3) Webpage,包括20个网页和783个实体,其中包含从个人、学术到计算机科学会议的各种文件;(4) Wikigold,一组维基百科文章,有40k个tokens。为了使数据集一致,我们将WNUT 2016 NER中的10种类型转换为4种CoNLL03实体类型。

5.2 Baselines

BiLSTM+CRF(Lample et al,2016)利用字符级Bi-LSTM来捕捉形态和正字法特征,利用单词级5446 Bi-LSTMs来整合句子语法特征。最后,考虑到标签的依赖性,模型堆叠了一个CRF层来预测标签。

BERT+CRF用强大的预训练语言模型BERT取代了传统的BiLSTM组件,以获得更多信息和上下文增强的单词表示。

La-DTL(Simpson等人,2020)提出了标签化MMD度量学习来缓解单词分布差异。

DATNet(Zhou et al,2019)提出了一种广义的资源对抗性鉴别器来捕获不同领域的共享特征空间。然后,域共享空间指导NER任务的目标域预测。

JIA2019(Jia et al,2019)将语言模型和NER任务相结合来构建多任务学习结构,然后利用张量分解来学习任务嵌入,以便在这种任务嵌入上进行跨域NER预测。

Multi-Cell(Jia和Zhang,2020)提出了一种在多任务学习策略下用于跨领域NER的多细胞组成LSTM结构。

此外,我们比较了PDALAN的两种变体的评估。我们分别用MT和VAT、平均教师策略和虚拟对抗性训练取代了自我训练阶段的顺序KD框架。

5.3 Training and Implementation Details

我们采用了Adam优化算法,学习率下降到0.00005。我们使用预训练的BERT(BERT-base, cased) ,其中transformer的数量为12,隐藏层大小为768,自注意头的数量为12。每个批次包含32个示例,最大编码长度为128。方程6中的系数 µ y µ_y µy 为0.25。温度超参数τ=0.05。我们选择100个标记的目标实例和500个标记的源实例来增加1400(1004+5002)大小的自适应数据。每个目标示例操作4次锚词替换为4个增强句,而每个源示例操作2次替换。特别是,由于目标示例不足,我们在网页数据集中以10/100/240作为目标/源/自适应示例。

5.4 Results and Discussion

Domain Adaptation on Unsupervised & Semi-supervised NER

在这里插入图片描述

Ablation Study

在这里插入图片描述

Evaluation on Entity Type

在这里插入图片描述

Parameter Study

在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值