Hardness-guided domain adaptation to recognise biomedical named entities under low-resource scenario

qq_45949611

已于 2023-04-05 14:52:16 修改

阅读量255

点赞数

分类专栏： cross domain 文章标签：算法

于 2023-03-31 20:19:42 首次发布

本文链接：https://blog.csdn.net/qq_45949611/article/details/129858570

版权

cross domain 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

1 Introduction

虽然一些域可能包含很多NE，但许多域没有（例如，表1中的最后一行），因此对学习bioNER-LM几乎没有贡献。同时，领域难度与实体的数量和实体的长度有关。鉴于生物医学领域中发现的不重叠的语言特征，这对有效地将训练后的bioNER-LM适应新领域提出了另一个挑战。因此，我们认为，Li等人（2020b）提出的当前适应框架可以使用难度信息进一步增强，我们称为HGDA。

在这里插入图片描述

使用元学习框架整合难度信息的现有领域自适应技术：1）根据难度水平对任务进行主动排名来整合难度信息；2）设计自适应任务调度器；3）依靠生成方法来量化任务的不确定性

2 Hardness-guided domain adaptation

2.1 Problem Setup

给定一组来自多源域 $D_{source}$ （例如，药物、基因、物种等）的生物医学语料库，我们的目标是学习来自从 $D_{source}$ 采样的一组任务 $p (T)$ 的序列标记函数 $h : X \to y$ ，使得 h 可以适应于从目标域 $D_{target}$ （例如疾病）采样的新任务 T′。这个函数 h 应该包含：1）用 θ 参数化的句子编码器（例如，BiLSTM），它捕获关于单词的上下文信息；2）用 $\phi$ 参数化的标签解码器（例如，CRF），它将实体标签分配给这些单词。因此，学习目标是从 $D_{source}$ 中搜索最优的 Θ＊={θ, $\phi$ }。该最优 Θ* 应最大限度地降低将从 $D_{source}$ 调整为 $D_{target}$ 的 T′ 的适应 h’ 的风险。

2.2 Task Generation

为了用随机优化来优化 θ*，首先需要从p（T）中采样，即任务生成。我们设置中的每个 bioNER 任务 $T_i$ 被划分为支持集 $T^S_i$ 和查询集 $T^Q_i$ ，其中 $T^S_i$ ∩ $T^Q_i$ =∅。我们进一步限制 $T^S_i$ 和 $T^Q_i$ 仅包含分别从 $D_{source}$ 中的域采样的 K 个句子。K的这个值取决于我们在T′的自适应阶段的数据量，可以小到5或10。这是为了在训练阶段模拟相同的小样本设置，这表明可以减少适应阶段的 PAC-Baysian 误差范围。为了将难度信息编码到我们的任务生成过程中，我们进一步考虑了由NER任务引起的不平衡问题。如表2所示，生物医学语料库中的大多数句子不包含任何NE。因此，K个随机采样的句子很可能不包含NE，这可能导致在自适应阶段总是预测“O”的有偏序列标注器。为了避免这个问题，我们提出了我们的第一种HGDA方法，即选择 $T^S_i$ 中的K个句子为包含至少一个生物医学NE的句子，这在适应阶段被证明是非常有效的。

在这里插入图片描述

2.3 Bilevel Optimization

为了正则化 θ，HGDA包括一个域分类器作为句子编码器顶部的单独头部。这强制网络学习域条件不变句子编码器。这个用 ω 参数化的领域分类器由一个FC层组成，用于预测任务 $T_i$ 中的句子属于哪个领域。此后，分类函数 $f$ 将用于表示句子编码器和领域分类器的组成。因此，HGDA的学习目标是：

在这里插入图片描述
其中 λ 控制标签损失和分类损失之间的权衡。由于HGDA遵循双层优化框架，我们首先从p（T）生成一批任务。对于这一批中的每个 $T_i$ ，我们在 $T^S_i$ 上训练模型，然后使用我们的学习目标验证 $T^Q_i$ 上的性能。因此，我们从当前一批任务中的每个 $T_i$ 收集梯度，并对参数进行更新，完成训练过程的一次迭代。这种情况一直持续到无法做出进一步改进为止。完整的算法如下：

在这里插入图片描述

2.4 Task Hardness

尽管为 $T_i$ 选择具有NE的K个句子被证明可以提高DA性能，但在实践中，只使用具有NE的句子是不现实的，不使用没有NE的句子也是浪费的，因为这些句子仍然会为句子编码器提供临床叙述的重要上下文信息。因此，HGDA结合了另一种基于损失计算bioNER任务难度的简单但有效的方法。 $T_i$ 传播的梯度将由 $T_i$ 的难度水平加权。具体而言，我们定义任务 $T_i$ 的任务难度 $Γ_i$ ={ $γ^θ_i$ , $γ^{\phi}_i$ , $γ^ω_i$ }及其相应的目标值如下：

在这里插入图片描述
其中 { $γ^θ_i$ , $γ^{\phi}_i$ , $γ^ω_i$ } 分别表示更新 {θ， $\phi$ ，ω} 的任务难度得分。通过在优化过程中加入任务难度，HGDA在为句子编码器收集了足够的上下文信息后，应该逐渐将重点转移到标签解码器的更具挑战性的标记任务上，而不是那些几乎没有学习价值的任务，例如，包含不带bioNE的简短句子的任务。这是因为将难度分数乘以相应的梯度值将迫使没有NE的句子的梯度更新为零。表1显示了HGDA如何对每个任务对梯度更新的贡献进行排名。

3 Experimental Results

3.1 Datasets

我们使用了基准语料库的预处理版本（见表2）,它被SOTA bioNER BioBERT使用（Lee等人，2019），并在BioBERT的github网站上公开。这些语料库被分为四个不重叠的生物医学领域，即疾病、药物、基因和物种，每个领域都将作为我们DA实验的目标领域。当句子编码器是BiLSTM时，HGDA使用基于PubMed数据库和MIMIC-III的临床笔记预先训练的BioWordVec嵌入。

3.2 Experimental Settings

序列编码器自适应：我们考虑了自适应序列编码器的艰巨任务。这假设每个域都有一个特定于域的解码器，并且只有句子编码器参数 θ 在域之间共享，因此适用于T′。

HGDA是我们的一个设置，它使用公式（2）重新校准{θ， $\phi$ ，ω}的梯度更新。

HGDA-NEs 仅使用包含至少一个bioNE的句子进行训练。

具体参数设置见附录。

3.3 Results & Discussions

在这里插入图片描述

在LINNAEUS语料库中，HGDA和HGDANE的表现都可能比MetaNER差。如表2显示，87%的LINNAEUS句子不包含bioNE。由于HGDA和HGDA NE在训练中都会去除这些句子，这可能导致表现不佳。

在我们的HGDA设置下，使用BERT作为句子编码器的HGDA和HGDANEs的表现都明显好于BioBERT基线。

qq_45949611

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hardness-guided domain adaptation to recognise biomedical named entities under low-resource scenario

cross domain
复制链接

扫一扫

专栏目录