1 简介
论文题目:Modeling Document-Level Context for Event Detection via Important Context Selection
论文来源:EMNLP 2021
组织机构:俄勒冈大学
论文链接:https://aclanthology.org/2021.emnlp-main.439.pdf
代码链接:
1.1 创新
- 提出一个模型,通过选择句子的重要上下文(不需要对长句子进行截断),使用BERT进行事件检测(序列标注和词分类),性能得到SOTA。
2 方法
模型主要包括两个部分:事件检测预测模型和上下文选择。
2.1 预测模型
将上下文选择模型选择的句子标记为C,按照在文档的位置分为两个子集LC和RC。然后选择的上下文和当前句子表示为文档
D
′
D'
D′:
D
′
=
[
[
C
L
S
]
,
w
1
L
C
,
w
2
L
C
,
.
.
.
,
w
n
L
C
L
C
,
[
S
E
P
]
,
w
1
,
w
2
,
.
.
.
,
w
n
[
S
E
P
]
,
w
1
R
C
,
w
2
R
C
,
.
.
.
,
w
n
R
C
R
C
]
D'=[[CLS],w_1^{LC},w_2^{LC},...,w_{nLC}^{LC},[SEP],w_1,w_2,...,w_n[SEP],w_1^{RC},w_2^{RC},...,w_{nRC}^{RC}]
D′=[[CLS],w1LC,w2LC,...,wnLCLC,[SEP],w1,w2,...,wn[SEP],w1RC,w2RC,...,wnRCRC]
然后通过BERT进行编码,最后进行分类,序列标注和词分类的Loss如下:
|
|
|
2.2 上下文选择
该部分对上下文进行选择,首先使用BERT得到句子 S j S_j Sj相对于当前句 S i S_i Si的编码(拼接起来,使用CLS表示),然后使用LSTM对以前选择的句子进行编码,每个time step输出一个最大概率句子为当前选择的句子(以前未被选择过的句子),直到超过BERT的输出长度(512)结束,公式如下:
|
|
|
2.3 训练
使用REINFORCE algorithm对上下文选择进行训练,其中 Reward包括下面三个部分:
- Task-level Reward R i t a s k R_i^{task} Ritask: 使用事件检测的指标(F1值、准确率)作为Reward。
- emantics-level Reward R i s i m R_i^{sim} Risim: 使用当前句子与选择句子的相似性作为Reward,公式如下:
|
|
|
- Discourse-level Reward
R
i
d
i
s
c
R_i^{disc}
Ridisc: 使用当前句子与选择句子共有的实体作为Reward,使用Stanford CoreNLP获得实体提及和共指簇,公式如下:
总的Reward为上述三个Reward的和,通过REINFORCE最小化负期望Reward,具体公式如下(B为batch size):
|
|
|
|
|
3 实验
实验数据集为ACE 2005和CySecED(300篇文章(30个空间安全类型)),实验结果如下:
消融实验:
提出的上下文选择方法与启发式的选择方法对比:
Case Study: