论文笔记 EMNLPFindings 2020|Biomedical Event Extraction with Hierarchical Knowledge Graphs

125 篇文章 12 订阅

1 简介

论文题目:Biomedical Event Extraction with Hierarchical Knowledge Graphs
论文来源:EMNLPFindings 2020
论文链接:https://arxiv.org/pdf/2009.09335.pdf
代码链接:https://github.com/PlusLabNLP/GEANet-BioMed-Event-Extraction

1.1 创新

  • 基于统一医学语言系统 (UMLS,生物医学知识库),提出了一种新的知识表示:包含概念和语义推理路径的分等级的知识图。
  • 提出了一种新的GNN,Graph Edgeconditioned Attention Networks(GEANet),以编码复杂的领域知识(使用attention机制融合边的信息)。

2 背景知识

Unified Medical Language System (UMLS)是一个生物医学和术语的知识库,包括三个知识源:元词库、语义网络、专家词典和词汇工具。本篇论文使用前两种资源构建分等级的图。
在这里插入图片描述

3 方法

在这里插入图片描述
主要包括三个部分:分等级知识图的建模、GEANet、事件抽取。

3.1 分等级知识图的建模

每个句子的图的构建包括概念映射、概念网络构建和语义类型增强。

  • 概念映射:将句子映射为生物医学概念(实体),表示为K。
  • 概念网络构建:通过上一阶段的概念映射生成最小生成树,通过广度优先搜索为语料库 GE11 构建全局最小生成树,去除了不在K中且在K中少于T个邻居的概念节点。然后在全局最小生成树上通过深度优先搜索得到每个句子的生成树。 语料库中每个匹配的token也作为一个token节点包含在句子图中,与相应的概念节点连接。
  • 语义类型增强:每个概念节点的语义类型被建模为与句子图中相关概念节点链接的节点。 如果两个语义类型节点在语义网络中具有已知关系,它们也将被链接。

3.2 GEANet

通过使用注意力机制融合边的特征进行信息传播,公式如下:
在这里插入图片描述
首先使用SciBERT获得上下文表示{h_1,…,h_n},对于映射的token,初始化结点编码为 h i , K G = h i W K G + b K G h_{i,KG}=h_iW_{KG}+b_{KG} hi,KG=hiWKG+bKG;其他结点和边使用TransE进行初始化,边编码 e i , j e_{i,j} ei,j被初始化为结点i和结点j之间的关系编码之和。然后使用GEANet进行编码, h i , K G l = G E A N e t ( h i , K G ) h_{i,KG}^l=GEANet(h_{i,KG}) hi,KGl=GEANet(hi,KG),最后知识感知的表示为 h ^ i = h i , K G l W L M + b L M + h i \widehat{h}_i=h_{i,KG}^lW_{LM}+b_{LM}+h_i h i=hi,KGlWLM+bLM+hi

3.3 事件抽取

对于触发词分类,预测每个token的类型,对于论元分类,拼接第i个和j个token进行分类,使用交叉熵进行训练,公式如下:

4 实验

实验数据集为BioNLP 11 GENIA,实验结果如下图:
在这里插入图片描述
对Regulation事件进行单独评估,验证框架对具有非指示性触发词的嵌套事件的有效性,实验结果如下图:
在这里插入图片描述
消融实验:
在这里插入图片描述
不同训练数据对性能的影响:
在这里插入图片描述
通过错误分析,发现主要的错误为:形容词触发词和误导性的触发词。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

hlee-top

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值