1 简介
论文题目:One for All: Neural Joint Modeling of Entities and Events
论文来源:AAAI 2019
论文链接:https://arxiv.org/pdf/1812.00195.pdf
1.1 创新
- 提出一个模型,联合解决实体提及检测(Entity Mention Detection)、事件检测和论元预测三个子任务,在ACE 2005数据集上达到SOTA。
2 方法
模型的整体框架如上图,主要包括下面5个部分:
- 句子编码:对于每个词 w i w_i wi,拼接两种向量表示,1)预训练词编码 d i d_i di。2)POS tag和chunking tag。
- 句子表示:使用GRU对句子进行编码,得到
H
=
h
1
,
h
2
,
.
.
.
.
.
,
h
n
H=h_1,h_2,.....,h_n
H=h1,h2,.....,hn。模型的目标是输入句子W,联合预测实体、触发词和论元。公式如下,其中
a
i
,
j
a_{i,j}
ai,j为token
w
j
w_j
wj在触发词
w
i
w_i
wi事件中的论元角色,如果满足下面三个条件之一,则为"Other"。1)i=j;2)
w
i
w_i
wi不是触发词;3)
w
j
w_j
wj不是实体提及的开始token。
- 实体提及检测:对于每个词
w
i
w_i
wi,概率计算公式如下(其中
R
i
E
M
D
=
[
h
i
,
D
i
]
R_i^{EMD}=[h_i,D_i]
RiEMD=[hi,Di],
D
i
D_i
Di为当前词周围window内词向量的拼接),然后使用维特比解码。
- 触发词和论元预测:对于当前词,尝试计算的概率如下式;对于事件检测,假设事件触发词为单个的token,在训练中使用真实的实体,评测式使用上一阶段预测的实体,概率公式为
P
(
t
i
∣
E
,
W
,
a
<
i
,
t
<
i
)
=
F
F
E
D
(
R
i
E
D
)
P(t_i|E,W,a_{<i},t_{<i})=FF^{ED}(R_i^{ED})
P(ti∣E,W,a<i,t<i)=FFED(RiED),其中
R
i
E
D
=
[
h
i
,
D
i
]
R_i^{ED}=[h_i,D_i]
RiED=[hi,Di],最后使用贪婪解码;对于论元预测,公式为
P
(
a
i
j
∣
E
,
W
,
a
i
,
<
j
,
a
i
,
t
<
i
+
1
)
=
F
F
A
R
P
(
R
i
j
A
R
P
)
P(a_{ij}|E,W,a_{i,<j},a_i,t_{<i+1})=FF^{ARP}(R_{ij}^{ARP})
P(aij∣E,W,ai,<j,ai,t<i+1)=FFARP(RijARP),其中
R
i
j
A
R
P
=
[
h
i
,
D
i
,
h
j
,
D
j
,
V
(
e
i
p
)
,
V
(
t
j
p
)
,
M
i
,
B
i
j
]
R_{ij}^{ARP}=[h_i,D_i,h_j,D_j,V(e_i^p),V(t_j^p),M_i,B_{ij}]
RijARP=[hi,Di,hj,Dj,V(eip),V(tjp),Mi,Bij],其中
V
(
x
)
V(x)
V(x)将标签转换为向量表示,在训练中
e
i
p
,
t
j
p
e_i^p,t_j^p
eip,tjp使用真实标签,
M
i
M_i
Mi为二进制向量,表示当前步骤i之前出现的事件类型和论元角色。
B
i
j
B_ij
Bij为二进制向量,捕捉token i和j直接的特征(如依赖路径、上下文单词),最后使用贪婪解码。
训练的目标函数如下,参数经过Frobenius范数(平方和再开方,L2范数)进行缩放:
3 实验
实验数据集为ACE 2005,使用Stanford CoreNLP工具预处理,实验结果如下图:
实体提及检测的实验效果如下图:
额外特征(POS, chunking, dependency parsing)对实验结果的影响:
错误分析: