论文阅读:SMedBERT: A Knowledge-Enhanced Pre-trained Language Model with Structured Semantics for Medical

论文阅读:SMedBERT: A Knowledge-Enhanced Pre-trained Language Model with Structured Semantics for Medical Text Mining

来源:ACL 2021

下载地址:https://arxiv.org/pdf/2108.08983.pdf

Abstract

最近,通过注入知识事实以增强其语言理解能力,预训练语言模型(PLM)的性能得到了显着提高。对于医学领域,背景知识源尤其有用,因为医学术语海量,它们之间的复杂关系在文本中难以理解。在这项工作中,我们介绍了 SMedBERT,这是一种在大规模医学语料库上训练的医学 PLM,它结合了来自链接实体邻居的深层结构化语义知识。在 SMedBERT 中,提出了mention-neighbour 混合注意力来学习异构实体信息,它将实体类型的语义表示注入到同质相邻实体结构中。除了将知识集成作为外部特征外,我们还建议在知识图中使用链接实体的邻居作为文本提及的额外全局上下文,允许它们通过共享邻居进行通信,从而丰富它们的语义表示。实验表明,SMedBERT 在各种知识密集型中国医疗任务中明显优于强大的baseline。 它还提高了其他任务的性能,例如问答、问题匹配和自然语言推理。

Introduction

预训练语言模型 (PLM) 通过自我监督任务学习有效的上下文表示。此外,一些研究人员通过将这些 PLMs 与高质量、人工策划的知识事实相结合,进一步有利于理解很难从原始文本中学习的知识。大多数知识增强的预训练语言模型(KEPLM)将与知识图 (KG) 中提及跨度相对应的实体的信息注入到上下文表示中。然而,这些 KEPLMs 仅利用 KGs 中的链接实体作为辅助信息,很少关注与文本提及链接的实体的相邻结构化语义信息。

在医学背景下,医学术语之间存在复杂的领域知识,例如关系和医学事实,很难使用以前的方法进行建模。为了解决这个问题,我们考虑从两个方面利用医学 KG 中的结构化语义知识。(1) 来自链接实体的相邻结构的丰富语义信息,例如实体类型和关系,对于医学文本理解非常有用。如图1所示,“新型冠状病毒”可能是“肺炎”、“呼吸综合征”等多种疾病的病因。(2) 此外,我们利用链接实体的邻居作为全局“上下文”来补充 (Mikolov et al., 2013a; Pennington et al., 2014) 中使用的纯文本上下文。 相邻实体中包含的结构知识可以充当提及跨度之间的“知识桥梁”,促进不同提及表示的交互。 因此,PLM 可以为罕见的医学术语学习更好的表示。
在这里插入图片描述
图 1:医学文本中相邻实体信息的示例。

在本文中,我们介绍了 SMedBERT,这是一种在大规模医学语料库和医学 KG 上预训练的 KEPLM。 据我们所知,SMedBERT 是第一个在医学领域注入结构化语义知识的 PLM。 具体来说,SMedBERT 的贡献主要包括两个模块:

Mention-neighbor Hybrid Attention

我们将节点的 embeddings 和链接实体邻居的类型融合到上下文目标提及表示中。 类型级别和节点级别的注意力分别有助于学习实体类型和链接实体的邻居的重要性,以减少注入模型的知识噪声。 类型级注意力将同质节点级注意力转化为相邻实体的异构学习过程。

Mention-neighbor Context Modeling

我们提出了两个新的自我监督学习任务来促进 mention-span 和相应的全局上下文之间的交互,即掩蔽邻居建模和掩蔽提及建模。前者基于训练好的“目标词”提及跨度丰富了“上下文”相邻实体的表示,而后者侧重于将这些信息从相邻实体收集回masked目标。

Related Work

KEPLMs主要分为以下三种类型。(1) 实体嵌入知识增强:ERNIE-THU (Zhang et al., 2019) 和 KnowBERT (Peters et al., 2019) 注入链接实体作为 KG 嵌入算法学习的异构特征。(2) 实体描述知识增强:E-BERT (Zhang et al., 2020a) 和 KEPLER (Wang et al., 2019b) 添加额外的实体描述文本以增强语义表示。(3) 通过 Triplet Sentence 增强知识:KBERT (Liu et al., 2020b) 和 CoLAKE (Sun et al., 2020) 将三元组转换为句子,并在没有预训练嵌入的情况下将它们插入到训练语料库中。

PLMs in the Medical Domain

医学领域的 PLM 通常可以分为三类。(1) BioBERT (Lee et al., 2020)、BlueBERT (Peng et al., 2019)、SCIBERT (Beltagy et al., 2019) 和 ClinicalBert (Huang et al., 2019) 对医学领域文本进行持续学习,例如 PubMed 摘要、PMC 全文文章和 MIMIC-III 临床笔记。(2) PubMedBERT (Gu et al., 2020) 使用 PubMed 数据从头开始学习权重以获得域内词汇表,从而缓解词汇表外 (OOV) 问题。 这种训练范式需要大规模领域数据和资源的支持。(3) 其他一些 PLM 使用域自监督任务进行预训练。 例如,MC-BERT (Zhang et al., 2020b) 掩盖了中国医学实体和短语来学习复杂的结构和概念。 DiseaseBERT (He et al., 2020) 利用医学术语及其类别作为标签来预训练模型。

在本文中,我们利用域语料库和提及的相邻实体三元组来增强医学语言表示的学习。

The SMedBERT Model

Notion and Model Overview

在 PLM 中,我们将每个令牌 { w 1 , . . . , w N } \{w_1,...,w_N\} { w1,...,wN} 的隐藏特征表示 { h 1 , . . . , h N } \{h_1,...,h_N\} { h1,...,hN}
作为M,其中 N 是最大输入序列长度和预训练样本的总数。让 E 是训练语料库中的提及跨度 e m e_m em的集合。此外,医学知识图谱由实体集 ε \varepsilon ε 和关系集 R R R 组成。三元组为 S = { ( h , r , t ) ∣ h ∈ ε , r ∈ R , t ∈ ε } S=\{(h,r,t)|h\in \varepsilon,r\in R,t\in \varepsilon\} S={ (h,r,t)hε,rR,tε},其中 h 是头实体与关系 r 与尾实体 t 联系。由 e m e_m em 从 KG 召回的相邻实体集表示为 N e m = { e m 1 , e m 2 , . . . , e m K } N_{e_m}=\{e^1_m,e^2_m,...,e^K_m\} Nem={ em1,em2,...,emK},其中 K 是我们的 PEPR 算法的阈值。 我们将 KG 中的实体数表示为 Z。PLM 中隐藏表示的维度和 KG 嵌入的维度分别为 d 1 d_1 d1 d 2 d_2 d2

我们模型的主要架构如图 2 所示。SMedBERT 主要包括三个组件:(1)Top-K 实体排序确定每次使用哪些 K 个邻居实体。 (2) Mention-neighbor混合注意力旨在将结构化语义知识注入编码器层,包括类型注意力、节点注意力和门控位置注入模块。(3) Mention-neighbor 上下文建模包括掩蔽邻居建模和掩蔽mention建模,旨在促进mention利用邻居实体并与之交互。
在这里插入图片描述
图 2:SMedBERT 的模型概述。 左边是我们的模型架构,右边是我们模型的细节,包括混合注意力网络和mention-neighbor上下文建模预训练任务。

Top-K Entity Sorting

先前的研究表明,简单的相邻实体扩展可能会在 PLM 训练期间引发知识噪声。 为了从 KG 中为每个mention召回最重要的相邻实体集,我们扩展了 Personalized PageRank (PPR) (Page et al., 1999) 算法以过滤掉琐碎的实体。PPR 中的迭代过程是 V i = ( 1 − α ) A ⋅ V i − 1 + α P V_i=(1-\alpha)A·V_{i-1}+\alpha P Vi=(1α)AVi1+αP,其中A是归一化的邻接矩阵,α是阻尼因子,P是均匀分布的跳跃概率向量,V是每个实体的迭代得分向量。PEPR 特别关注在每次迭代中学习目标提及跨度的权重。 它在 P 中为跨度 e m e_m em 分配更高的跳跃概率 1 ,其余为 1 Z \frac {1}{Z} Z1 。 它还使用实体频率来初始化得分向量 V :
在这里插入图片描述
其中 T 是所有实体的频率之和。 t e m t_{e_m} tem e m e_m em 在语料库中出现的频率。 排序后,我们选择top-K的实体集 N e m N_{e_m} Nem

Mention-neighbor Hybrid Attention

除了相邻实体的嵌入之外,SMedBERT 还整合了医学实体的类型信息,以进一步增强 mention-span 的语义表示。

Neighboring Entity Type Attention

不同类型的相邻实体可能会产生不同的影响。 给定一个特定的mention-span em,我们计算相邻实体类型的注意力。 具体来说,我们计算每个实体类型 τ \tau τ 的隐藏表示为 h τ = ∑ e m i ∈ E m τ h e m i h_ \tau=\sum _{e^i_m\in E^\tau _m}h_{e^i_m} hτ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值