Hardness-guided domain adaptation to recognise biomedical named entities under low-resource scenario

1 Introduction

虽然一些域可能包含很多NE,但许多域没有(例如,表1中的最后一行),因此对学习bioNER-LM几乎没有贡献。同时,领域难度与实体的数量和实体的长度有关。鉴于生物医学领域中发现的不重叠的语言特征,这对有效地将训练后的bioNER-LM适应新领域提出了另一个挑战。因此,我们认为,Li等人(2020b)提出的当前适应框架可以使用难度信息进一步增强,我们称为HGDA。

在这里插入图片描述

使用元学习框架整合难度信息的现有领域自适应技术:1)根据难度水平对任务进行主动排名来整合难度信息;2) 设计自适应任务调度器;3)依靠生成方法来量化任务的不确定性

2 Hardness-guided domain adaptation

2.1 Problem Setup

给定一组来自多源域 D s o u r c e D_{source} Dsource(例如,药物、基因、物种等)的生物医学语料库,我们的目标是学习来自从 D s o u r c e D_{source} Dsource 采样的一组任务 p ( T ) p(T) p(T) 的序列标记函数 h : X → y h:X→ y h:Xy,使得 h 可以适应于从目标域 D t a r g e t D_{target} Dtarget(例如疾病)采样的新任务 T′。这个函数 h 应该包含:1)用 θ 参数化的句子编码器(例如,BiLSTM),它捕获关于单词的上下文信息;2)用 ϕ \phi ϕ 参数化的标签解码器(例如,CRF),它将实体标签分配给这些单词。因此,学习目标是从 D s o u r c e D_{source} Dsource 中搜索最优的 Θ*={θ, ϕ \phi ϕ}。该最优 Θ* 应最大限度地降低将从 D s o u r c e D_{source} Dsource 调整为 D t a r g e t D_{target} Dtarget的 T′ 的适应 h’ 的风险。

2.2 Task Generation

为了用随机优化来优化 θ*,首先需要从p(T)中采样,即任务生成。我们设置中的每个 bioNER 任务 T i T_i Ti 被划分为支持集 T i S T^S_i TiS 和查询集 T i Q T^Q_i TiQ,其中 T i S T^S_i TiS T i Q T^Q_i TiQ =∅。我们进一步限制 T i S T^S_i TiS T i Q T^Q_i TiQ仅包含分别从 D s o u r c e D_{source} Dsource 中的域采样的 K 个句子。K的这个值取决于我们在T′的自适应阶段的数据量,可以小到5或10。这是为了在训练阶段模拟相同的小样本设置,这表明可以减少适应阶段的 PAC-Baysian 误差范围。为了将难度信息编码到我们的任务生成过程中,我们进一步考虑了由NER任务引起的不平衡问题。如表2所示,生物医学语料库中的大多数句子不包含任何NE。因此,K个随机采样的句子很可能不包含NE,这可能导致在自适应阶段总是预测“O”的有偏序列标注器。为了避免这个问题,我们提出了我们的第一种HGDA方法,即选择 T i S T^S_i TiS 中的K个句子为包含至少一个生物医学NE的句子,这在适应阶段被证明是非常有效的。

在这里插入图片描述

2.3 Bilevel Optimization

为了正则化 θ,HGDA包括一个域分类器作为句子编码器顶部的单独头部。这强制网络学习域条件不变句子编码器。这个用 ω 参数化的领域分类器由一个FC层组成,用于预测任务 T i T_i Ti 中的句子属于哪个领域。此后,分类函数 f f f 将用于表示句子编码器和领域分类器的组成。因此,HGDA的学习目标是:

在这里插入图片描述
其中 λ 控制标签损失和分类损失之间的权衡。由于HGDA遵循双层优化框架,我们首先从p(T)生成一批任务。对于这一批中的每个 T i T_i Ti,我们在 T i S T^S_i TiS 上训练模型,然后使用我们的学习目标验证 T i Q T^Q_i TiQ 上的性能。因此,我们从当前一批任务中的每个 T i T_i Ti 收集梯度,并对参数进行更新,完成训练过程的一次迭代。这种情况一直持续到无法做出进一步改进为止。完整的算法如下:

在这里插入图片描述

2.4 Task Hardness

尽管为 T i T_i Ti 选择具有NE的K个句子被证明可以提高DA性能,但在实践中,只使用具有NE的句子是不现实的,不使用没有NE的句子也是浪费的,因为这些句子仍然会为句子编码器提供临床叙述的重要上下文信息。因此,HGDA结合了另一种基于损失计算bioNER任务难度的简单但有效的方法。 T i T_i Ti 传播的梯度将由 T i T_i Ti 的难度水平加权。具体而言,我们定义任务 T i T_i Ti 的任务难度 Γ i Γ_i Γi={ γ i θ γ^θ_i γiθ, γ i ϕ γ^{\phi}_i γiϕ, γ i ω γ^ω_i γiω}及其相应的目标值如下:

在这里插入图片描述
其中 { γ i θ γ^θ_i γiθ, γ i ϕ γ^{\phi}_i γiϕ, γ i ω γ^ω_i γiω} 分别表示更新 {θ, ϕ \phi ϕ,ω} 的任务难度得分。通过在优化过程中加入任务难度,HGDA在为句子编码器收集了足够的上下文信息后,应该逐渐将重点转移到标签解码器的更具挑战性的标记任务上,而不是那些几乎没有学习价值的任务,例如,包含不带bioNE的简短句子的任务。这是因为将难度分数乘以相应的梯度值将迫使没有NE的句子的梯度更新为零。表1显示了HGDA如何对每个任务对梯度更新的贡献进行排名。

3 Experimental Results

3.1 Datasets

我们使用了基准语料库的预处理版本(见表2),它被SOTA bioNER BioBERT使用(Lee等人,2019),并在BioBERT的github网站上公开。这些语料库被分为四个不重叠的生物医学领域,即疾病、药物、基因和物种,每个领域都将作为我们DA实验的目标领域。当句子编码器是BiLSTM时,HGDA使用基于PubMed数据库和MIMIC-III的临床笔记预先训练的BioWordVec嵌入。

3.2 Experimental Settings

序列编码器自适应:我们考虑了自适应序列编码器的艰巨任务。这假设每个域都有一个特定于域的解码器,并且只有句子编码器参数 θ 在域之间共享,因此适用于T′。

HGDA是我们的一个设置,它使用公式(2)重新校准{θ, ϕ \phi ϕ,ω}的梯度更新。

HGDA-NEs 仅使用包含至少一个bioNE的句子进行训练。

具体参数设置见附录。

3.3 Results & Discussions

在这里插入图片描述

在LINNAEUS语料库中,HGDA和HGDANE的表现都可能比MetaNER差。如表2显示,87%的LINNAEUS句子不包含bioNE。由于HGDA和HGDA NE在训练中都会去除这些句子,这可能导致表现不佳。

在我们的HGDA设置下,使用BERT作为句子编码器的HGDA和HGDANEs的表现都明显好于BioBERT基线。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值