Severing the Edge Between Before and After:Neural Architectures for Temporal Ordering of Events
Abstract
在本文中,我们提出了一种神经结构和一套事件时序关系抽取的训练方法。将一段文本中的一对事件作为模型的输入,识别它们之间的时间关系(Before、After、Equal、Vague)。事件时序关系抽取任务的一个关键挑战是标注数据的稀缺,我们的模型要么依赖于预先训模型(即Roberta,Bert或Elmo),要么依赖于转移和多任务学习(通过利用互补的数据集),要么依赖于自我训练技术。在英文文档的MATRES数据集上的实验取得了目前最好效果。
Introduction
事件时序关系抽取任务:预测一段文本中一对事件之间的时序关系(Figure 1)。
Albright (e1, came) to the State Department to (e2, offer) condolences.
奥尔布赖特向国务院表示哀悼。
(e1, came)和(e2, offer)之间的关系是Before。
事件时序关系抽取这项任务具有挑战性,需要对语言的时间方面有深刻的理解,而且带标签的数据很少。
MATRES数据集包含了256个英文文档中的13577对用时序关系标注的事件。
主要贡献
- 提出一种神经体系结构,可以灵活地适应不同编码器和预训练词嵌入器,以形成上下文成对的参数表示;
- 针对训练数据稀缺问题,通过利用互补(时间和非时间)信息来探索现有的定时多任务框架(Scheduled Mutitask-Learning,SMTL)的应用,这模拟了预训练和微调;
- 结合模型预测,并从中学习自我训练方法,将其与SMTL方法联合测试。
Baseline Model
baseline:RoBERTa
输入:
- X [ 0 , n ) X_{\left[ 0,n \right)} X[0,n) 即 { x 0 , x 1 , . . . . . . , x n − 1 } \left\{ x_0,x_1,......,x_{n-1} \right\} { x0,x1,......,xn−1} ,表示文本的 n n n个token序列;
- 子序列 s p a n i span_i spani由 s t a r t i start_i starti , e n d i end_i endi ∈ [ 0 , n ) \in \left[ 0,n \right) ∈[0,n)定义, s p a n 1 span_1 span1和 s p a n 2 span_2 span2分别表示事件 e 1 e_1 e1和 e 2 e_2 e2的输入对。
目标:预测事件 e 1 e_1 e1和 e 2 e_2 e2之间的时序关系,
流程:
-
模型使用wang2vec或ELMO、BERT、RoBERTa将输入表示为词嵌入;
-
可以选择使用LSTM或者Transformer对词嵌入进行编码,使用BERT、RoBERTa生成词嵌入的时候不使用任何编码器;最终序列标识为 H [ 0 , n ) H_{\left[ 0,n \right)} H