从大规模文献库中实现生物医学关系抽取

BERE是一个新提出的框架,用于自动从大规模生物医学文献中提取实体间关系。它结合了语义和句法的混合编码,通过自注意力机制和GumbelTree-GRU捕捉句子的远程依赖和句法结构。在DDI和DTI数据集上的实验表明,BERE在生物医学关系提取中表现出优越性能,尤其在无需外部解析器的情况下仍能有效学习句法结构。
摘要由CSDN通过智能技术生成

fig1

背景概述与方法概述

背景概述

关于生物医学实体(biomedical entities,比如 drugs 与 targets)之间关系的知识广泛分布在3000多万篇研究文章中,并一直在生物医学科学的发展中发挥着重要作用。在这项工作中,作者提出了一个新框架BERE,用于自动提取大规模文献库中的生物医学关系。BERE使用混合编码网络从语义和句法两个方面更好地表示每个句子,并使用特征聚合网络在考虑所有相关语句后进行预测。实验证明,BERE在生物医学关系提取方面表现良好,并可以发现现有数据库中没有发现的关系,从而指导和推进生物知识的发现。

知识库(来源于生物医药学中的语料库)在生物医学的发展中起着重要的作用。大多数结构化数据库,比如DrugBank,CTD,SIDER,BioGRID,都是从人类专家大量的科学文章中整理出来的。生物医药的信息抽取(infromation extraction)目标是从大量非结构化文本中提取有意义的事实。在此之后,提取的数据可以被输入到下游任务,从而促进生物知识的发现过程。

生物医学研究人员最关心的信息一般分为三类:

  • 生物医学实体,在NLP中,生物医学实体识别对应命名体识别任务,属于语义分析的应用,进一步,将识别结果链接到知识图谱中的实体,这被称为实体链接
  • 关系Relation(实体之间的交互或关联),关系提取对应NLP中的关系抽取Relation Extraction
  • 事件(至少与一个实体相关的重要事实或发现),事件提取对应NLP中的事件抽取任务Event Extraction,事件在文本中由触发词Trigger定义

以上三个应用任务均属于NLP中的信息抽取任务


在该篇论文的工作中,作者主要关注第二类信息:句子中描述的实体之间的生物医学关系,比如药物药物相互作用(DDI),药物靶标相互作用(DTI)。DDI的预测为预防药物不良反应(adverse drug reactions,ADRs)提供了有效途径。DTI的预测是药物重新定位的关键步骤,目的是寻找现有药物的新靶点(novel targets of existing drugs)。而基于机器学习的DDI和DTI模型均建立在结构化的关系数据上,随着NLP的发展,自动生物医学关系提取技术(BioRE)已经被用于加速关系信息的提取,以获得结构化的关系信息。

BioRE的任务通常被表述为在关系注释文本的监督下,从一组句子(bag of sentences)中对大量实体之间的关系进行分类。然而,收集这种带标签的文本很费力,因此提出远距离监督(distant supervised),即所有涉及到同一对实体的句子都用知识库中已标注的关系进行标记,从而扩展数据集。

基于神经网络的模型通常使用CNN,RNN学习句子的语义表示,但却忽略了句子的句法特征。相比之下,考虑句子成分解析树(将单词组织成嵌套短语的一种组成结构)的递归神经网络RvNN能取得更好的预测效果。但是基于递归神经网络的策略存在关键缺点:依赖外部解析器解析句子,变化的树结构与小批量训练不兼容。近年来,自注意力机制在图像识别(智能感知)和机器翻译(智能认知)领域取得了瞩目的表现,主要在于捕捉远程依赖(long-range dependencies)方面的优势。

方法概述 Overview of BERE

基于上述工作,作者提出一种新的机器学习框架BERE,用于从大规模生物医学文献库中自动提取生物医学实体之间的关系。BERE利用自动树学习和自注意力机制充分挖掘句子内部的语义和句法(树结构负责),以及单词之间的短期和长期依赖关系(注意力机制负责)。BERE采用远距离监督方法,减少了人工注释的成本,通过对单句注释的DDI数据集和远距离监督的DTI数据集的测试,证明了论文所提出的BERE在生物医学关系提取方面的优势。

BERE架构如图a所示。给一对在一组句子中共同提到的实体组合(Entity1,Entity2),BERE首先将句子的单词embedding(word embedding)和词性embedding(part-of-speech,POS embedding)连接,表示句子中的每个单词(也称为单词向量,word vector)。然后,每个词向量被输入自注意力层,以捕获远程依赖关系,通过残差连接将其添加回原始词向量。

BERE使用双向GRU编码每个单词的局部上下文特征,随后接一个 Gumbel Tree-GRU,用greedy-based策略在所有可行方案(红色边标记)中找到最优组合方案(绿色边标记)。图b给出了 Gumbel Tree-GRU中的一个操作示例。Gumbel Tree-GRU用于自动挖掘解析树,严格意义上,该解析树为短语结构句法树。

在第 t t t步,句子被表示为4个向量的序列(分别表示为"Entity1"、“correlation”、“with"和"Entity2”),下一步,所有相邻向量通过一个共享的Tree-GRU单元进行组合,得到三个候选向量,然后通过一个评分函数进行打分。在步骤 t + 1 t+1 t+1中,选择得分最高的候选向量(即"correlation with")。其他向量直接从步骤 t t t复制(即"Entity1"和"Entity2")。当所有的单词组成一个向量时,最终得到的向量基本上是整个句子的特征表示。为了捕捉目标实体之间的关联,BERE进一步将实体的上下文特征嵌入到句子表示中。最后,BERE使用基于注意力的句子聚合方案计算句子组(bag of sentences),输入分类器获得Entity1和Entity2的关系。
fig2

结果与讨论

在单句注释的DDI数据集上测试

作者在单句注释的DDI数据集(DDI’13 dataset)上进行了广泛的测试,将BERE的性能与其他六种最先进的DDI关系提取方法的性能进行比较。训练了每个模型,将句子中提到的一对药物之间的关系分类为5种DDI类型:

{
    "NA": 0,
    "advise": 1,
    "effect": 2,
    "mechanism": 3,
    "int": 4
}

并使用 F1 score 评估性能: 2 P R / ( P + R ) 2PR/(P+R) 2PR/(P+R),其中, P P P表示 precision, R R R表示 recall。

为了实现批量计算,对每个句子进行填充和裁剪,将每个句子的长度固定为60个单词,这比数据集中85%的句子都长,目的是为了取得效率与准确性之间的平衡。在输入表示之后与分类器之前应用Dropout缓解过拟合。Table1显示了DDI提取的性能(关系识别的准确率),BERE优于所有的baseline,与RvNN相比,BERE不需要外部的解析工具构造解析树,能够端到端(不依赖人工设计的特征或外部工具)地学习解析句子。
fig3

在远程监督的DTI数据集上进行测试

为了更好验证BERE在远程监督数据集上的有效性,我们在一个远程监督DTI数据集上,将BERE与其他具有代表性的基于远程监督的RE方法进行比较,其中每个药物-靶标关系都由一组语句支持。在所有的beseline中,PCNN-AVE和PCNN-ATT采用相似的基于CNN的方式对句子编码,但采用了不同的句子聚合策略(前者为平均策略,后者引入注意力策略)。类似的,BiGRU-ATT和BiGRU-2ATT都基于双向GRU,但是BiGRU-2ATT使用了额外空间下的注意力。作者训练每个模型,用于分类药物-靶标之间的关系(6个类型),使用precision-recall曲线衡量各个模型的表现,并计算precision-recall的面积AUPRC以及F1 score。
fig4
上图a是BERE和其他先进方法之间的precision-recall比较。图b是BERE构建的解析树示例,对于句子:“Irinotecan toxicity correlates with UGT1A1 activity”,Irinotecan是一种药物,UGT1A1是靶标;对于句子:“Moexipril is a new, long-acting angiotensin-converting enzyme inhibitor”,moexipril是一种药物,angiotensin-converting enzyme是靶标。图b证明了BERE可以像人类一样解析句子。

Discussion

在这项工作中,作者提出了BERE,一个新的机器学习框架,可以自动实现从非结构化的生物医学文献中抽取关系。BERE通过内部的Gumbel Tree-GRU分析句子(构建句法分析中的短语结构句法树),利用BiGRU和自注意力机制捕捉短期和长期依赖关系,将实体的局部上下文特征融入句子编码中,可以从语义和句法两方面充分利用句子信息。虽然这种混合特征表示方法可能会给模型带来更多的复杂性,但所产生的开销主要是训练时间的增加。一旦BERE得到良好的训练,就可以使用它从广泛分布的文本中快速提取对应关系。

总之,BERE对现有的单句注释DDI数据集,远程监督DTI数据集进行测试,实验表现证明BERE在生物医学文本的关系提取中具有很大优势。

  • 2
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值