A Two-Stream AMR-enhanced Model for Document-level Event Argument Extraction
论文:[2205.00241] A Two-Stream AMR-enhanced Model for Document-level Event Argument Extraction (arxiv.org)
期刊/会议:NAACL 2022
摘要
以往的研究大多致力于从单个句子中抽取事件,而文档级别的事件抽取仍未得到充分的研究。在本文中,我们专注于从整个文档中抽取事件论元,主要面临两个关键问题:1)触发词与语句论元之间的长距离依赖关系;B)文件中一个事件的分散在上下文中。为了解决这些问题,我们提出了一个Two-Stream Abstract meaning Representation enhance extraction model(TSAR)。TSAR通过双流编码模块(two-stream encoding module)从不同角度对文档进行编码,以利用本地和全局信息,并降低分散在上下文的影响。此外,TSAR还引入了基于局部和全局构建的AMR语义图的AMR引导交互模块(AMR-guided interaction module),以捕获句内和句间特征。引入一种辅助边界损失来显式增强文本跨度的边界信息。大量实验表明,TSAR在公共RAMS和WikiEvents数据集上的性能分别提高了2.54 F1和5.13 F1,在跨句论元抽取方面表现出了优势。
1、简介
事件论元抽取(Event Argument Extraction, EAE)旨在识别作为事件论元的实体,并预测它们在事件中扮演的角色,这是事件抽取(Event Extraction, EE)的关键步骤。它有助于将非结构化文本转换为结构化事件知识,可以进一步用于推荐系统、对话系统等。大多数先前的研究假设事件仅仅出现在单个句子中,因此聚焦在句子级别的研究上。然而,在现实场景中,事件通常是通过由多句话组成的整个文档来描述的(例如,一篇新闻文章或一份财务报告),这仍然有待研究。
图1演示了文档级EAE的一个示例,其中Transport事件由shipment触发。与句子级的EAE不同,从整个文档中抽取论点面临两个关键挑战。(1)触发词与论元之间的远距离依赖(long-distance dependency)。这些论元通常位于与触发词不同的句子中,而且它们的距离可能相当远。在图1中,虽然触发词shipment在第2句中,但vehicle(车辆)、origin(原产地)、artifact(工件)和importer(进口商)等论元位于第1句或第3句中,这极大地增加了抽取的难度。为了适应长范围抽取,不仅要对句内语义进行建模,而且要对句间语义进行建模。(2)语境分散(distracting context)。虽然一份文档自然包含了比一句话更多的上下文,但有些内容会让人分心。上下文可以误导论元抽取。如图1所示,不需要第4句,就可以更容易地确定origin论元 U.S. ,第4句没有提供事件的有用信息,但包含了许多可能分散注意力的place(位置)实体,如Saudi Arabia(沙特阿拉伯)、Russia(俄罗斯)或Iran(伊朗)。在剔除那些分散注意力的信息的同时,找出有用的上下文仍然具有挑战性。
最近,Du和Cardie使用了一种基于标记的方法,该方法无法处理嵌套论元。相反,基于跨度的方法预测候选跨度的论元角色。一些研究直接生成基于序列到序列模型的论元。然而,如何在触发词和论元之间建模长距离依赖关系,以及如何显式地处理分散注意力的上下文,在很大程度上仍有待探索。
在本文中,为了解决上述两个问题,我们提出了一个双流增强抽取模型(two - stream AMR-enenhanced extraction model, TSAR)。为了利用文档中的基本上下文,并避免被干扰所误导,我们引入了一个双流编码模块。它由一个全局编码器和一个局部编码器组成,前者使用尽可能多的上下文对全局语义进行编码,以收集足够的上下文信息;后者专注于最基本的信息,并谨慎地考虑额外的上下文。这样,TSAR可以利用不同编码视角的互补优势,从而更好地利用可行上下文来受益于抽取。此外,为了模拟远程依赖关系,我们引入了AMR引导的交互模块。抽象语义表示(AMR)图包含了不同概念之间丰富的层次语义关系,有利于复杂事件的抽取。从这种语言驱动的角度出发,我们将文档的线性结构转换为全局和局部的图结构,然后使用图神经网络来增强交互,特别是那些非局部元素。最后,由于TSAR在span级别抽取论元,其中span边界可能是模糊的,我们引入了一个辅助边界损失来增强具有校准边界的span表示。
总之,我们的贡献有三方面。1)提出了文档级EAE的双流编码模块,该模块通过两个不同的视角对文档进行编码,从而更好地利用上下文。2)引入了AMR引导的交互模块,以促进文档内部的语义交互,从而更好地捕获长距离依赖关系。3)我们的实验表明,TSAR在公共RAMS和WikiEvents数据集上分别提高了2.54 F1和5.13 F1,特别是在跨句事件论元抽取方面。
2、相关工作
2.1 句子级事件抽取
以往的研究主要集中在句子级别的事件抽取上。Li等人(2014)以及Judea和Strube(2016)使用手工特征从句子中抽取事件。Chen等人(2015)首先提出了神经管道模型来抽取事件,而Nguyen等人(2016)利用联合模型来减轻误差传播。为了更好地模拟单词之间的相互作用,Liu等人(2018);Yan等人(2019);Ma等人(2020)利用依赖树,Wadden等人(2019)列举了所有可能的跨度,并在跨度图中传播信息。也考虑了数据增强(Yang等人,2019)。此外,一些工作试图将事件抽取任务重新定义为其他任务。例如,Du和Cardie (2020b)和Zhou等人(2021)将事件抽取作为问题回答,Xiangyu等人(2021)将其建模为序列到序列的任务。然而,所有这些模型都只能从单个句子中抽取事件。因此,它们无法处理更常见的情况,其中事件论元通常分布在文档中的多个句子中。
2.2 文档级事件抽取
为了从一整篇多句文章中抽取事件,文档级事件抽取越来越受到人们的关注。Yang和Mitchell(2016)利用定义良好的特征来抽取句子中的论元,而最近的方法是基于神经网络的。一些研究首先识别文档中的实体,然后将这些实体分配为特定的论元角色(Yang等人,2018;Zheng等人,2019;Xu等人,2021)。不同的是,一些研究试图同时联合抽取实体和论元角色,这可以进一步分为基于标记的方法和基于span的方法。基于标记的方法直接对文档中的每个标记进行BIO范式的序列标记,而基于跨度的方法预测候选文本跨度的论元角色,这些候选文本跨度通常有最大长度限制。另一项研究将任务重新定义为序列到序列的任务(Du等人,2021a,b;Li等人, 2021),或机器阅读理解任务(Wei et al, 2021)。
作为一种基于span的方法,TSAR不同于以前的方法,它只是简单地将其编码为一个长句子。相反,TSAR引入了双流编码模块和AMR引导的交互模块来建模句内和句间语义,以及辅助边界损失来增强跨界边界信息。
3、任务描述
继Ebner等人(2020)之后,我们制定了文档级事件论元抽取如下。我们定义一个文档 D D D由 N N N个句子组成,一个句子由一组单词组成,即 D = { w 1 , w 2 , . . . , w ∣ D ∣ } D =\{w_1, w_2,...,w_{|D|}\} D={w1,w2,...,w∣D∣}, SEN ( w i ) ∈ [ 1 , N ] \text{SEN}(w_i) \in [1,N] SEN(wi)∈[1,N]表示 w i w_i wi所属的句子。我们还为每个事件类型 e ∈ ε e \in \varepsilon e∈ε定义了事件类型集 ε \varepsilon ε和对应的论元角色集合 R e R_e Re。然后,给定一个文档 D D D和触发词事件类型 e ∈ ε e \in \varepsilon e∈ε的触发器 t ∈ D t \in D t∈D,该任务旨在检测该事件的所有 ( r , s ) (r, s) (r,s)对,其中 r ∈ R e r \in R_e r∈Re是事件类型 e e e的论元角色, s ⊆ D s⊆D s⊆D是文档中的一个连续文本跨度。
4、方法
图2显示了我们的模型TSAR的整体架构。文档被送入双流编码模块,然后由AMR引导的交互模块导出全局和局部上下文化表示。信息融合模块融合这两个流表示,分类模块最终预测候选跨度的论元角色。
4.1 双流编码器模块
虽然文档提供了更多的上下文,但它也不可避免地介绍了与事件无关的和分散注意力的信息。这些噪声信号可能对论元抽取有害,如图1所示。为了捕捉有用的信息和过滤干扰信息,我们提出了一个双流编码器模块,由一个全局编码器和一个局部编码器组成,全局编码器了解所有上下文,局部编码器只谨慎地关注最基本的信息。因此,我们可以利用它们的互补优势,更好地利用上下文信息。
具体来说,全局编码器和局部编码器共享相同的基于transformer的预训练语言模型,例如BERT。通过在self-attention模块中控制单词的感受野,我们可以从不同的角度对文档进行编码。在全局编码器中,注意力技术与传统的Transformer相同:
Attention
G
(
Q
,
K
,
V
)
=
softmax
(
Q
K
T
d
m
)
V
\text{Attention}^G(Q,K,V)=\text{softmax}(\frac{QK^T}{\sqrt{d_m}})V
AttentionG(Q,K,V)=softmax(dmQKT)V
其中Q、K、V分别为query、key、value矩阵,
d
m
d_m
dm为模型维数。然而,在局部编码器中,我们引入了掩码矩阵
M
M
M,这样标记只能关注句子本身和触发词所在的句子,以避免冗余的分散注意力的信息:
Attention
L
(
Q
,
K
,
V
)
=
softmax
(
Q
K
T
+
M
d
m
)
V
\text{Attention}^L (Q,K,V)=\text{softmax}(\frac{QK^T+M}{\sqrt{d_m}})V
AttentionL(Q,K,V)=softmax(dmQKT+M)V
M i j = { 0 , SEN ( w j ) ∈ { SEN ( w i ) , SEN ( t ) } − ∞ , O t h e r w i s e M_{ij}=\left\{\begin{matrix} 0, & \text{SEN}(w_j) \in \{ \text{SEN}(w_i),\text{SEN}(t)\}\\ -\infty ,& Otherwise \end{matrix}\right. Mij={0,−∞,SEN(wj)∈{SEN(wi),SEN(t)}Otherwise
SEN ( w j ) \text{SEN}(w_j) SEN(wj)是单词 w i w_i wi所属的句子, t t t是事件的触发词。
因此,我们用两个不同的流对文档进行编码,一个是全局编码器
E
n
c
o
d
e
r
G
Encoder^G
EncoderG,一个是局部编码器
E
n
c
o
d
e
r
L
Encoder^L
EncoderL,最后得到两个表示,
Z
G
Z^G
ZG和
Z
L
Z^L
ZL:
Z
G
=
[
z
1
G
,
z
2
G
,
…
,
z
∣
D
∣
G
]
=
Encoder
G
(
[
w
1
,
w
2
,
…
,
w
∣
D
∣
]
)
Z
L
=
[
z
1
L
,
z
2
L
,
…
,
z
∣
D
∣
L
]
=
Encoder
L
(
[
w
1
,
w
2
,
…
,
w
∣
D
∣
]
)
\begin{array}{l} Z^{G}=\left[z_{1}^{G}, z_{2}^{G}, \ldots, z_{|D|}^{G}\right]=\operatorname{Encoder}^{G}\left(\left[w_{1}, w_{2}, \ldots, w_{|D|}\right]\right) \\ Z^{L}=\left[z_{1}^{L}, z_{2}^{L}, \ldots, z_{|D|}^{L}\right]=\operatorname{Encoder}^{L}\left(\left[w_{1}, w_{2}, \ldots, w_{|D|}\right]\right) \end{array}
ZG=[z1G,z2G,…,z∣D∣G]=EncoderG([w1,w2,…,w∣D∣])ZL=[z1L,z2L,…,z∣D∣L]=EncoderL([w1,w2,…,w∣D∣])
4.2 AMR引导交互模块
从文档中抽取论元的一个关键挑战是捕捉句内和句间特征。因此,我们提出了一种AMR引导的交互模块,该模块采用抽象语义表示图,提供丰富的语义结构,便于概念之间的交互,同时从语言驱动的角度提供文档的逻辑意义,有利于语言理解。
AMR语义图将句子的意义表示建模为一个有根的、有向的、有标签的图。具体来说,AMR解析器将一个自然的句子可以被解析成一个AMR图 G = ( V , E ) G = (V, E) G=(V,E)。该节点 V = ( a , b ) ∈ V V = (a, b)∈V V=(a,b)∈V代表一个概念,对应于跨度从 w a w_a wa到 w b w_b wb在原点的句子,而边缘代表一个特定的AMR关系(细节在附录a)。因此,AMR侧重于语义关系而不是语法的,哪个更高层和有利于事件了解和结构更接近事件trigger-arguments结构。例如,图3演示了如何将句子解析为AMR语义图。由于事件论元在文本中扮演着重要的角色,它们中的大多数(如果不是全部)将涉及到AMR图(RAMS和WikiEvents数据集中90%和88%的论元)。我们使用最先进的AMR解析器(Fernandez Astudillo等人)(2020),为下游应用程序实现了令人满意的结果(在AMR2.0数据上高达81.3 Smatch)。由于AMR关系类型的数量很大,导致所需参数过多,我们也遵循Zhang和Ji(2021)将关系类型聚类为主要类别。更多的细节可以在附录A中找到。
AMR引导的交互模块附加在全局和局部编码器之后,如图2所示。在组合、交互和分解范式下,我们使用AMR图作为信息交互的骨架。
从局部角度,我们为文档中的每个句子构建AMR图,并且它们彼此隔离。初始化时,节点
u
=
(
a
u
,
b
u
)
u = (a_u, b_u)
u=(au,bu)的向量表示由其对应文本跨度的局部表示的平均值组成(composed):
h
u
0
=
1
∣
b
u
−
a
u
+
1
∣
∑
i
=
a
u
b
u
z
i
L
h_u^0=\frac{1}{|b_u -a_u +1|} \sum_{i=a_u}^{b_u} z_i^L
hu0=∣bu−au+1∣1i=au∑buziL
与Zeng等人(2020)类似,我们随后使用
L
L
L层堆叠图卷积网络通过具有不同关系类型的边来建模不同概念节点之间的交互(interactions)作用。给定第
l
l
l层节点
u
u
u,定义信息交互聚合操作如下:
h
u
(
l
+
1
)
=
ReLU
(
∑
k
∈
K
∑
v
∈
N
k
(
u
)
∪
{
u
}
1
c
u
,
k
W
k
(
l
)
h
v
(
l
)
)
h_u^{(l+1)}=\text{ReLU}(\sum_{k \in K} \sum_{v \in N_k(u) \cup \{u\}} \frac{1}{c_{u,k}}W_k^{(l)}h_v^{(l)})
hu(l+1)=ReLU(k∈K∑v∈Nk(u)∪{u}∑cu,k1Wk(l)hv(l))
其中
K
K
K表示不同的关系类型,
N
k
(
u
)
N_k^{(u)}
Nk(u)表示
u
u
u与第
K
K
K个关系类型相连的邻居,
c
u
,
K
c_{u, K}
cu,K为归一化常数。
W
k
(
l
)
∈
R
d
m
×
d
m
W^{(l)}_k \in \R^{d_m×d_m}
Wk(l)∈Rdm×dm是一个可训练的参数。
最后,我们将所有层中的向量连接起来,并通过
h
u
=
W
1
[
h
u
0
;
h
u
1
;
…
;
h
u
L
]
∈
R
d
m
h_u= W_1[h^0_u;h^1_u;\ldots;h_u^L] \in \R^{d_m}
hu=W1[hu0;hu1;…;huL]∈Rdm;然后将
h
u
h_u
hu分解decomposed为对应单词的局部表示,然后进行标记聚合,其中
I
(
⋅
)
I(·)
I(⋅)表示指示函数:
h
~
i
L
=
z
i
L
+
∑
u
I
(
a
u
<
=
i
∧
b
u
>
=
i
)
h
u
∑
u
I
(
a
u
<
=
i
∧
b
u
>
=
i
)
\widetilde h_i^L=z_i^L + \frac{\sum_u I(a_u <=i \wedge b_u >=i)h_u}{\sum_u I(a_u <=i \wedge b_u >= i)}
h
iL=ziL+∑uI(au<=i∧bu>=i)∑uI(au<=i∧bu>=i)hu
从全局角度来看,我们首先通过完全连接不同句子的AMR图的根节点来构建全局AMR图,因为根据AMR核心语义原则,根节点包含核心语义。然后使用类似的基于图的交互方法来获得AMR增强的全局表示
h
~
i
G
\widetilde h_i^G
h
iG,但而是基于全局AMR图。通过这种方式,句间信息可以通过句子边界流动,因此也可以更好地捕获长距离依赖关系。
4.3 信息融合模块
在信息融合模块中,我们融合了全局表示 H ~ G = [ h ~ 1 G , h ~ 2 G , … , h ~ ∣ D ∣ G ] \widetilde{H}^G=[\widetilde h_1^G,\widetilde h_2^G,\ldots,\widetilde h_{|D|}^G] H G=[h 1G,h 2G,…,h ∣D∣G]和局部表示 H ~ L = [ h ~ 1 L , h ~ 2 L , … , h ~ ∣ D ∣ L ] \widetilde{H}^L=[\widetilde h_1^L,\widetilde h_2^L,\ldots,\widetilde h_{|D|}^L] H L=[h 1L,h 2L,…,h ∣D∣L],构造候选跨度的最终向量表示。
具体来说,我们使用门控融合来控制从两个流表示中合并多少信息。给定
h
~
i
G
\widetilde{h}_i^G
h
iG和
h
~
i
L
\widetilde{h}_i^L
h
iL,我们用可训练参数
W
2
W_2
W2和
W
3
W_3
W3计算门控向量
g
i
g_i
gi,
g
i
=
sigmoid
(
W
2
h
~
i
G
+
W
3
h
~
i
L
+
b
)
g_i = \text{sigmoid}(W_2 \widetilde h^G_i + W_3 \widetilde h^L_i + b)
gi=sigmoid(W2h
iG+W3h
iL+b)。然后我们推导出融合表示
h
i
~
\widetilde{h_i}
hi
:
h
~
i
=
g
i
⊙
h
~
i
G
+
(
1
−
g
i
)
⊙
h
~
i
L
\widetilde h_i=g_i \odot \widetilde h_i^G + (1-g_i) \odot \widetilde h_i^L
h
i=gi⊙h
iG+(1−gi)⊙h
iL
对于一个从
w
i
w_i
wi到
w
j
w_j
wj的候选文本跨度,其融合表示由开始表示
h
~
i
s
t
a
r
t
\widetilde h_i^{start}
h
istart、结束表示
h
~
j
e
n
d
\widetilde h_j^{end}
h
jend和跨度隐藏态平均池化
W
s
p
a
n
∈
R
d
m
×
(
3
×
d
m
)
W_{span} \in \R^{d_m×(3×d_m)}
Wspan∈Rdm×(3×dm)组成:
s
i
:
j
=
W
s
p
a
n
[
h
~
i
s
t
a
r
t
;
h
~
i
e
n
d
;
1
j
−
i
+
1
∑
k
=
i
j
h
~
k
]
s_{i:j}=W_{span} [\widetilde h_i^{start};\widetilde h_i^{end}; \frac{1}{j-i+1} \sum_{k=i}^j \widetilde h_k]
si:j=Wspan[h
istart;h
iend;j−i+11k=i∑jh
k]
其中,
h
~
i
s
t
a
r
t
=
W
s
h
~
i
,
h
~
i
e
n
d
=
W
e
h
~
i
\widetilde h_i^{start}=W_s \widetilde h_i,\widetilde h_i^{end}=W_e \widetilde h_i
h
istart=Wsh
i,h
iend=Weh
i
由于我们抽取的论元在span层,其边界可能是模糊的,我们引入了一个辅助边界损失来增强
h
~
i
s
t
a
r
t
\widetilde h_i^{start}
h
istart、
h
~
j
e
n
d
\widetilde h_j^{end}
h
jend的边界信息。详细地,我们使用token分类器预测单词
w
i
w_i
wi是正确论元跨度的第一个单词还是最后一个单词。我们使用一个线性变换(linear transformation),后面跟着一个sigmoid函数,来推导单词
w
i
w_i
wi是正确论元的第一个或最后一个单词的概率,即
P
i
s
P_i^s
Pis和
P
i
e
P_i^e
Pie。
P
i
s
=
sigmoid
(
W
4
h
~
i
s
t
a
r
t
)
,
P
i
e
=
sigmoid
(
W
5
h
~
i
e
n
d
)
P_i^s=\text{sigmoid}(W_4 \widetilde h_i^{start}),P_i^e=\text{sigmoid}(W_5 \widetilde h_i^{end})
Pis=sigmoid(W4h
istart),Pie=sigmoid(W5h
iend)
最后,边界损失定义为以下检测起始和结束位置的交叉熵损失。
L
b
=
−
∑
i
=
1
∣
D
∣
[
y
i
s
l
o
g
P
i
s
+
(
1
−
y
i
s
)
l
o
g
(
1
−
P
i
s
)
+
y
i
e
l
o
g
P
i
e
+
(
1
−
y
i
e
)
l
o
g
(
1
−
P
i
e
)
]
L_b=-\sum_{i=1}^{|D|}[y_i^s log P_i^s + (1-y_i^s)log(1-P_i^s)+y_i^e log P_i^e + (1-y_i^e)log(1-P_i^e)]
Lb=−i=1∑∣D∣[yislogPis+(1−yis)log(1−Pis)+yielogPie+(1−yie)log(1−Pie)]
其中,
y
i
s
y_i^s
yis和
y
i
e
y^e_i
yie表示正确标签。这样,我们引入一个显式监督信号来注入一个跨度的开始和结束表示的边界信息,这在我们的探索实验中被证明是必要的和重要的。
4.4 分类模块
在分类模块中,我们预测候选span扮演什么论元角色,或者它不属于任何特定的论元角色。除了span表示
s
i
:
j
s_{i:j}
si:j之外,我们还考虑触发词、事件类型和span的长度。具体来说,我们将以下表示串联起来,得到最终的预测向量
I
i
:
j
I_{i:j}
Ii:j: 1)触发词表示
h
~
t
\widetilde h_t
h
t,span表示表示
s
i
:
j
s_{i:j}
si:j,它们的绝对差
∣
h
~
t
−
s
i
:
j
∣
|\widetilde{h}_t -s_{i:j}|
∣h
t−si:j∣,以及逐元素的乘法,
h
~
t
⊙
s
i
:
j
\widetilde h_t \odot s_{i: j}
h
t⊙si:j;2)事件类型
E
t
y
p
e
E_{type}
Etype的嵌入。3)跨度长度
E
l
e
n
E_{len}
Elen的嵌入;
I
i
:
j
=
[
h
~
t
;
s
i
:
j
;
∣
h
~
t
−
s
i
:
j
∣
;
h
~
t
⊙
s
i
:
j
;
E
t
y
p
e
;
E
l
e
n
]
I_{i:j}=[\widetilde h_t ; s_{i:j}; |\widetilde{h}_t-s_{i:j}|;\widetilde{h}_t \odot s_{i:j};E_{type};E_{len}]
Ii:j=[h
t;si:j;∣h
t−si:j∣;h
t⊙si:j;Etype;Elen]
我们使用交叉熵损失
L
c
L_c
Lc作为损失函数:
L
c
=
−
∑
i
=
1
∣
D
∣
∑
j
=
i
∣
D
∣
y
i
:
j
l
o
g
P
(
r
i
:
j
=
y
i
:
j
)
L_c=-\sum_{i=1}^{|D|} \sum_{j=i}^{|D|} y_{i:j} logP(r_{i:j}=y_{i:j})
Lc=−i=1∑∣D∣j=i∑∣D∣yi:jlogP(ri:j=yi:j)
其中
y
i
:
j
y_{i:j}
yi:j是正确的论元角色,
P
(
r
i
:
j
)
P(r_{i:j})
P(ri:j)是基于
I
i
:
j
I_{i:j}
Ii:j通过前向网络导出的。
最后,我们以端到端的方式训练模型,最终的损失函数为 L = L c + λ L b L=L_c+\lambda L_b L=Lc+λLb, λ \lambda λ为超参数。
5、实验
5.1 数据集
我们在两个公共文档级事件论元抽取数据集上评估我们的模型,RAMS v1.0 (Ebner et al, 2020)和WikiEvents (Li et al, 2021)。RAMS包含9,124个人工标注的示例,有139种事件类型和65种论元角色,以及超过21k个论元。WikiEvents是另一个人工标注的数据集,具有50种事件类型和59个事件论元角色,以及超过3.9k个事件。我们遵循RAMS和WikiEvents数据集的官方训练/开发/测试分割,并使用Ebner等人(2020)提供的评估脚本来评估性能。RAMS和WikiEvents数据集的详细数据统计如表1所示。
5.2 实验设置和评估指标
在我们的实现中,我们使用 B E R T b a s e BERT_{base} BERTbase(Devlin et al, 2019)和 R o B E R T a l a r g e RoBERTa_{large} RoBERTalarge(Liu et al, 2019)作为TSAR的骨干网络编码器,全局和局部编码器共享参数。详细的超参数见附录B。
继Zhang等人(2020b)之后,我们报告了RAMS数据集的Span F1和Head F1。Span F1要求预测的论元跨度完全匹配正确的,而Head F1放松了约束,只评估论元跨度的头词。一个span的头词定义为在依赖树中到根的弧距离最小的词。此外,继Li等人(2021)之后,我们报告了WikiEvents数据集的Head F1和Coref F1分数。如果抽取的论元与Ji和Grishman(2008)使用的正确论元是相关的,则该模型在Coref F1中被给予完整的分数。
5.3 主要的结果
Baseline:1) BERT-CRF (Shi and Lin, 2019)是一种基于标记的方法,采用了一种基于BERT的BIO-style序列标记模型。2) Two-Step (Zhang et al, 2020b)是一种基于span的方法,它首先识别可能的参数span的头词,然后扩展到全span。 B E R T − C R F T C D BERT-CRF_{TCD} BERT−CRFTCD和 T w o − S t e p T C D Two-Step_{TCD} Two−StepTCD是指采用类型约束解码机制(Ebner et al, 2020)。3) FEAE (Wei et al, 2021),框架感知事件论元抽取,是一项基于问答的并行工作。4) BERT-QA (Du and Cardie, 2020c)也是一种基于问答的模型。BERT-QA和BERT-QA- doc抽取分别在句子级和文档级上运行。5) BART-Gen (Li et al, 2021)将任务制定为sequence-to-sequence的任务,并使用 B A R T l a r g e BART_{large} BARTlarge (Lewis et al, 2020)以预定义的格式生成相应的论元。
表2说明了RAMS数据集上的开发集和测试集的结果。由图可知,在基于 B E R T b a s e BERT_{base} BERTbase的模型中,TSAR的性能优于以往的其他方法。例如,在开发集中,与之前的方法相比,TSAR产生了4.93 ~ 7.13 Span F1和3.70 ~ 6.00 Head F1的改进,在测试集中达到8.76 Span F1。此外,在基于大型预训练语言模型的模型中,TSAR优于BART-Gen 2.54 Span F1和1.21 Head F1。这些结果表明,以双流方式编码文档,并引入AMR图来促进交互,有利于捕获句内和句间特征,从而提高性能。
此外,我们跟随Li等人(2021)评估了论元识别和论元分类,并报告了Head F1和Coref F1。识别需要模型正确检测论元跨度边界,而分类则需要进一步正确预测其论元作用。如表3所示,在这两项任务中,TSAR的表现始终优于其他人。与BART-Gen相比,TSAR在论元识别方面提高了4.87/3.23 Head/Coref F1,在论元分类方面提高了5.13/3.68 Head/Coref F1。在基于 B E R T b a s e BERT_{base} BERTbase的模型中也出现了类似的结果,Head F1在鉴别和分类上分别提高了5.69 ~ 36.37和11.95 ~ 33.34。这些结果表明,TSAR不仅在论元跨度边界的检测上,而且在预测它们的作用方面优于其他方法。
6、分析
6.1 跨句子论元抽取
由于文档中有多个句子,一些事件论元位于远离触发词的位置,这大大增加了抽取的难度。为了探索处理TSAR这种跨句论元的效果,我们根据论元与触发词之间的句子距离将RAMS数据集中的事件论元分为5个bins,即 d = { − 2 , − 1 , 0 , 1 , 2 } d =\{−2,−1,0,1,2\} d={−2,−1,0,1,2}。我们为不同的方法在RAMS开发集中报告Span F1。如表4所示,跨句论元( d ≠ 0 d \ne 0 d=0)的Span F1远低于局部论证( d = 0 d = 0 d=0),这表明捕获触发词和跨句论元之间的长距离依赖关系是一个巨大的挑战。然而,TSAR仍然超过了其他强大的基线。具体而言, T S A R b a s e TSAR_{base} TSARbase和 T S A R l a r g e TSAR_{large} TSARlarge与之前的技术相比分别提高了0.4和0.7 F1。更重要的是,在抽取跨句论元时, T S A R b a s e TSAR_{base} TSARbase和 T S A R l a r g e TSAR_{large} TSARlarge平均提高了2.3和2.7。结果支持了我们的观点,即TSAR在捕捉句内和句间特征方面都很出色,特别是在触发词和论元之间的距离方面。
6.2 消融实验
我们进行了一项消融实验,以探索不同模块在TSAR中的有效性。表5显示了 T S A R l a r g e TSAR_{large} TSARlarge在RAMS数据集上的结果。我们还提供了 T S A R b a s e TSAR_{base} TSARbase的结果,以及附录C中WikiEvents数据集上的结果。
首先,我们删除了双流编码模块中的全局或局部编码器。如表5所示,在没有全局编码器和局部编码器的测试集上,删除会导致性能下降,例如,Head F1下降3.04和1.71。这表明全局编码器和局部编码器是相互补充的,它们都是TSAR所必需的。
其次,一旦我们移除AMR引导的交互模块,测试集上的Head F1将下降1.83。结果表明,AMR图提供的语义结构有助于文档论元的抽取。
最后,边界损失的去除导致边界信息在span表示中丢失,这也导致开发集和测试集的Head F1分别下降1.62和0.78。
6.3 案例研究
在本节中,我们将展示不同方法中抽取结果的一个具体案例。如图5所示,stabbings 触发一个 Attack 事件,带有三个论元。由于 Nine people 位于触发词(stabbings)附近,所有的方法都正确地预测到它是目标。然而,抽取 Minnesota 和 Dahir Adan 要求捕获远距离依赖。尽管Two-Step和BART-Gen错误地预测了 place 是 Iraq 和 Syria ,Two-Step甚至没有抽取出 Attacker,但TSAR成功地抽取出了跨句论点。这可以归因于我们的AMR增强模块捕获 Minnesota 是 attack 的 place,在语义上与触发词stabbings高度相关。
6.4 错误分析
为了进一步探究不同模型所产生的误差并详细分析原因,我们从RAMS测试集中随机选择200个样本,并手动将预测结果与正确标注进行比较。我们将错误分为五类,如图4所示。错误跨度是指将特定角色分配给与正确跨度不重叠的错误跨度。我们发现,这通常是由于否定词,如不,和共指跨度的标注。过度抽取表示模型预测了一个论元角色,而该论元角色在文档中并不存在。一些抽取的跨度是正确跨度的子字符串(Partial),或者与它们有一些重叠(Overlap)。
这两种错误通常归因于数据集中的标注不一致,例如名词前面的形容词、量词和冠词(例如,a和the)是否应该属于正确论元。此外,在如图4所示的正确跨度中存在逗号等标点符号的情况下,也会出现Partial错误。最后,尽管模型成功地识别了正确跨度,但它仍然可以将错误的论元角色分配给跨度(错误角色)。我们比较了 T w o − s t e p T C D Two-step_{TCD} Two−stepTCD和 T S A R b a s e TSAR_{base} TSARbase的误差。我们观察到TSAR将错误数从275个减少到233个,尤其是错误角色和过度抽取,分别减少了27个和16个错误。
7、总结
从整个文档中抽取事件论元是具有挑战性的,因为触发词和论元之间的依赖关系很长,而且上下文会分散人的注意力。为了解决这些问题,我们提出了Two-Stream AMR-enhanced extraction model (TSAR)。TSAR使用双流编码器从不同角度对文档进行编码,然后使用AMR引导的交互模块促进文档级语义交互。引入辅助边界损失来增强跨域的边界信息。在RAMS和WikiEvents数据集上的实验表明,TSAR比以前最先进的方法有很大的优势,分别提高了2.51和5.13 F1,特别是在跨句论元抽取方面。