Abstract
针对事件抽取(Event Extraction)目前面临着训练数据缺乏和文档级别事件抽取两大问题,文章开创性的提出相应的解决方案。第一,训练数据缺乏。ACE 2005 中,各语言的文档数不过几百篇,对深度学习来说,这样的数据量是不足够的。第二,事件抽取还局限于单个句子。而事实上,一个事件往往涉及到触发词和多种事件元素,触发词和所有的事件元素都出现在同一个句子中的理想情况并不常见,因此篇章级的事件提取非常有必要。
下图是论文中给出的一个例子,图中的事件

Introduction
金融事件对投资者来说十分有用,通过有针对性的对不同金融事件作出相应的操作,可以为投资者带来巨大的利润。而目前针对中文金融事件抽取的研究还比较少。
Methodology
远程监督扩充训练语料
远程监督是一种训练集扩充的方法,在关系抽取和事件抽取任务中都已经得到了应用。为了减少模型对人工标注数据的依赖,基于以下假设:两个实体如果在知识库中存在某种关系,则包含该两个实体的非结构化句子均能表示出这种关系,人们提出了远程监督的概念。例如,“Steve Jobs”, "Apple"在 Freebase 中存在 founder 的关系,那么“Steve Jobs was the co-founder and CEO of Apple.”可以作为一个训练正例来训练模型。
在这篇文章中,借助了一个人工编写的结构化金融事件数据库来对现有的非结构化数据进行标注。
两层事件抽取
从句子和文档两个层面进行事件抽取,并辅助以元素补全(Argument Completion)手段,进行文档级别的事件抽取,避免了从一个句子中无法抽取出完整事件信息的弊病。

上图展示了DCFEE模型的整体架构,主要包括两个部分,第一个部分是数据生成,即通过远程监督进行数据标注,并生成句子级别的和文档级别的标注数据;第二个部分是事件抽取,是两个独立训练的部分,分别通过句子级别的标注数据和篇章级别的标注数据进行训练。
数据生成

数据生成需要两个数据集合:一个是人工编写的,结构化的金融事件知识库,这个库中包含着大量的结构化金融事件,并且对每一个事件都针对其Trigger和Arguments进行了详细的记录;另一个数据集合是非结构化的上市公司的金融公告,用来进行与知识库中的事件进行匹配,以便按照远程监督的原则生成数据集合。
生成的主要步骤:1. 将文档切分成一个个的句子;2. 对句子进行Trigger的匹配;3. 匹配Argument。这个步骤完成后,句子级别的标注数据就已经产生了。对于一个文档,作者定义其中的一个句子作为文档中的正例,即最能表达文档中事件的一句话,其他句子均为负例。自此,对一篇文档的标注就完成了。
事件抽取

事件抽取模型分成两个部分,一个是黄色框的句子级抽取(SEE),一个是绿色框的篇章级抽取(DEE)。
句子级别的抽取采用了在序列标注领域有着非常出众表现的Bi-LSTM+CRF模型。通过将句子切分成字符,以字符的形式输入Bi-LSTM层,输出的结果通过CRF层加入BIO标注用来表示Trigger和Arguments。这样就完成了句子级别的事件表示。
之后,将SEE的输入和输出分别向量化,并将两个向量拼接在一起,得到DEE的输入。DEE的目标是给定一个句子及其标注,可以判断这个句子是否是文档中的正例。通过DEE,我们可以得到文档的中心事件。DEE实质上是一个卷积神经网络,具有一个输入层,一个卷积层以及一个二分类的输出层。在得到文档级别的标注后,再进行元素的补充(Argument Completion),使整个事件更加完整。
Result
数据集构建
通过远程监督和数据爬取,构建了4种中文金融事件抽取的数据集,利用这套数据来对DCFEE模型进行训练。

与传统的模式识别方法相比,DCFEE在事件元素的抽取中有了很大的提升。在不同的金融事件中的表现也都达到了比较高的水平。


与传统的模式识别方法相比,DCFEE在事件元素的抽取中有了很大的提升。在不同的金融事件中的表现也都达到了比较高的水平。
593

被折叠的 条评论
为什么被折叠?



