1 简介
论文题目:DeepEventMine:end-to-end neural nested event extraction from biomedical texts
论文来源:Bioinformatics 2020
论文链接:https://academic.oup.com/bioinformatics/article/36/19/4910/5858975
代码链接:https://github.com/aistairc/DeepEventMine
1.1 动机
- 最近的基于神经网络的事件抽取主要关注一般领域的普通事件,它们是很少尝试检测嵌套和重叠的事件。
- 这些现有系统是基于给定的实体构建的,依赖外部语法工具。
1.2 创新
- 提出一个端到端的基于神经网络的嵌套事件抽取模型,从原始句子中提取多个重叠的有向无环图结构。
- 在transformers模型的双向编码器表示之上,提出的模型以端到端的方式检测嵌套的实体和触发器、角色、嵌套事件及其变体,不需要任何语法工具。
2 背景知识
如果一个事件的论元里包含其他事件,则这个事件称为嵌套事件。如果一个事件的论元仅是实体,则这个事件称为单调事件。定义嵌套事件的等级为k,k=1表示事件论元中仅有单调事件,k=2事件论元中有至少一个嵌套事件。
3 方法
模型的框架图如下,可以发现模型总共分四层:BERT层、实体(触发词)层、角色层、事件层.
3.1 BERT层
BERT层接收字词序列,并通过BERT为子词序列分配上下文表示。假定每个句子有n个词,第i个词被分为 s i s_i si个子词,该层为第i个词的第j个子词分配向量为 v i , j v_{i,j} vi,j,同时CLS的编码为句子 v s v_s vs的表示。
3.2 实体(触发词)层
该层将实体或者触发词类型分配给句子中重叠的文本区间或者单词序列。该层全面地考虑了一个句子的全部可能区间,其长度小于或者等于实体的最大区间长度
L
e
n
t
L_{ent}
Lent和触发词的最大区间长度
L
t
r
i
g
L_{trig}
Ltrig。在句子中第k个词到第l个词的区间的表示为
m
k
,
l
m_{k,l}
mk,l,计算公式如下,因为每个区间可能有多个类型,使用多个带sigmoid函数的二分类器解决多标签问题。对于每个分类器,如果输出分数 >0.5,则选择该区间作为相应的实体/触发器类型。
3.3 角色层
角色层枚举全部的触发词-论元对(触发词-触发词对和触发词-实体对),给定实体(触发词)层检测的触发词和实体,为每个触发词-论元对分配一个角色类型或者没有角色。
一个范围从第
t
s
t_s
ts到第
t
e
t_e
te个词的触发词t被表示为区间表示
m
t
m_t
mt和一个
n
t
n_t
nt维度的类型编码
s
t
s_t
st,
v
t
=
[
m
t
;
s
t
]
v_t=[m_t;s_t]
vt=[mt;st]。类似地,一个论元a的表示被计算为
v
a
=
[
m
a
;
s
a
]
v_a=[m_a;s_a]
va=[ma;sa]。一个触发词-论元(触发词)对的表示
r
i
r_i
ri,由触发词表示
v
t
v_t
vt、论元表示
v
a
v_a
va和上下文表示c,公式如下,然后通过一个带softmax函数的全连接层预测角色类型。
3.4 事件层
为了构建嵌套事件,该论文构建事件以自底向上的方式。具体地,首先分类论元没有触发词的候选事件(没有论元或者论元仅是一系统实体),获取一组检测(单调)事件。然后重复以上步骤,构建和分类候选的嵌套事件(论元中有触发词)。重复该过程,直到所有候选事件都被分类或没有固定论元的候选事件。一个候选事件i的表示为 e i e_i ei,计算公式如下,当候选事件有触发词作为论元,则将 v a j v_{a_j} vaj替换为事件表示 e a j e_{a_j} eaj, e i e_i ei通过一个带GELU的隐藏层生成 e i ′ e_i' ei′,然后通过二分类判断是否为一个事件。当候选事件被分类为一个事件, e i ′ e_i' ei′还被传递到softmax分类器,以将事件变体的类型附加到检测的事件。
4 实验
在6个生物医学领域相关的事件抽取事件集评测模型。训练过程分为下面两步:
- 第一步: 通过使用真实标签对每个层进行训练来分别准备每个层,以避免在后续层中使用不可靠的预测,并充分利用真实标签。
- 第二步: 我们同时训练整个模型,包括实体/触发器、角色和事件层。
实验结果如下图:
联合模型和管道模型的对比实验结果如下:
同时注意到,端到端的模型在实体、触发词和角色检测的表现比管道模型差。通过计算生成正确事件的预测实体与总预测实体的比率。发现原因是端到端的模型更加关注预测和事件相关的元素。
通过实验,观测模型在不同级别的嵌套事件的表示,实验结果如下:
错误分析如下图所示,可以发现模型缺失的预测事件主要由缺失的触发词和论元的角色引起。
5 总结
- 提出一个基于神经网络的嵌套事件抽取模型,以端到端的方式预测嵌套实体和事件。