原论文:DCFEE: A Document-level Chinese Financial Event Extraction System based on Automatically Labeled Training Data (ACL 2018)
原论文的著作权属于中科院自动化所,本文仅进行了学习以及笔记工作。
1. 前言
我个人认为,事件抽取(Event Extraction)主要存在两方面的问题。第一个方面,训练数据的严重不足。拿经常用来做实验的公开数据集 ACE 2005 来说,各语言的文档数不过几百篇,如果要运用机器学习神经网络的方法进行测试,这样的数据量是不足够的。此外,ACE 2005中提供的事件不具备在垂直领域的可拓展性。第二个方面,事件抽取的实用性还不够。我之前看到过的事件抽取方向的论文,都是在句子的层面进行的事件抽取,但是这样有很明显的缺陷:一个事件涉及到触发词(Trigger)和多个事件元素(Argument),我们很少能够遇到触发词和所有的事件元素都出现在同一个句子中这种非常理想的情况,也就是说,只从一个句子出发进行事件抽取,很容易抽取不出来Argument的信息。
一个事件出现在多个句子中
在这篇论文中,研究人员描述了一个从文档层面出发进行事件抽取的系统,此外,他们还将远程监督这(Distance Supervision)一方法应用到事件抽取领域,使得训练集的自动拓展在一定程度上成为了可能。可以说这篇论文试图同时解决上面提到的事件抽取存在的两方面问题。
2. 思路
2.1 扩充训练语料
利用远程监督(Distance Supervision)的方法进行训练数据集的扩充。远程监督是一种训练集扩充的方法,在关系抽取和事件抽取任务中都已经得到了应用。我们先拿关系抽取中的远程监督举例: