文章目录
1 简介
论文题目:ExcavatorCovid: Extracting Events and Relations from Text Corpora for Temporal and Causal Analysis for COVID-19
论文来源:EMNLP 2021
组织机构:BBN科技公司
论文链接:https://arxiv.org/pdf/2105.01819.pdf
1.1 动机
- 每天都有大量的COVID-19的相关文章和报告,要跟踪这些发展中的事件或全面了解这些事件背后的时间和因果动态是非常困难的。
1.2 创新
- 从文章中抽取COVID-19事件和时间、位置论元。
- 抽取一对事件的时序和因果关系,构建可视化的时序和因果分析图。
2 方法
2.1 Building a COVID-19 Event Taxonomy
首先构造 COVID-19 的事件类型,使用Stanza工具在Aylien coronavirus news数据集上获得可能是触发词的名词和动词短语,然后使用BERT对这些短语进行编码,最后进行聚类,检查频繁出现的类簇作为事件类型,如下图:
2.2 Extracting Events
抽取COVID-19事件和时间、位置论元,使用BIO标注,抽取论元时触发词使用<t></t>标签mask,最后分别使用AWAKE和SERIF,将位置和时间标准化(月级别)。模型结构如下:
2.3 Extracting Temporal and Causal Relations
使用基于模式和深度神经网络的方法抽取时序和因果关系,关系类型如下表:
- 基于模式的方法:应用了LearnIt的时序和因果关系模式,一对事件之间的单词序列或者是连接这对事件的谓词-论元结构。
- 基于深度神经网络的方法:使用BERT对事件提及进行编码,然后进行平均池化,向量表示为
V
=
(
V
1
,
V
2
,
∣
V
1
−
V
2
∣
)
V=(V_1,V_2,|V_1-V_2|)
V=(V1,V2,∣V1−V2∣),最后进行分类,模型结构如下图:
2.4 Constructing a TCAG
时序和因果分析图的结点为事件类型,边为时序和因果关系,如下图:
2.5 Measuring Event Popularity through Time
事件类型e在时间t的流行程度的计算公式如下,
N
e
,
t
N_{e,t}
Ne,t为t月份事件e发生的频率,
M
t
M_t
Mt为t月份发表文章总数的1/500,为了减少噪音,计算以每个 t 为中心的移动平均值,滑动窗口T=3。
3 实验
使用两个数据集Aylien Coronavirus News Dataset和COVID-19 Open Research Dataset,抽取结果中超过50000次的事件类型如下表:
对于事件抽取,随机取样100个事件提及进行人工评测,得到83%的准确率,对于时序和因果关系抽取,每个关系类型取样40个,进行人工评测,结果如下图:
事件流行程度结果如下图:
不同地区的事件流行程度时间线如下图: