【论文阅读01】DCFEE: A Document-level Chinese Financial Event Extraction System based on Automatically Labeled Training Data
关键词:文档级事件抽取;中文、金融领域;自动生成标签
本文聚焦于中文金融领域的文档级事件抽取,主要解决以下两个挑战:
- 数据匮乏
- 文档级事件抽取
本文的贡献点总结如下:
- 提出DCFEE框架,该框架能够自动抽取大量的标注数据并且能够从金融公告中抽取文档级的事件
- 提出一个自动标记方法并给出一些关于构建中文金融事件抽取数据集的tips
- 提出的框架已经被成功部署为在线系统(喵喵喵?)
Methodology
模型主要包括两个部分:
- Data Generation:该部分使用远程监督来从整个文档中自动标记事件提及 和 从事件提及中标注触发器和参数
- EE system:该部分由句子级事件抽取(SEE)和文档级事件抽取(DEE)两个模块构成,其中SEE使用的是句子级的标注数据,而DEE使用的是文档级的标注数据
Data Generation
Data Source:由上图可知,该系统在自动生成数据时用到的两种数据源 Financial event knowledge base(该数据源①包括9种常见的财务事件类型,并以表格式存储②这些结构化数据包含了关键的事件论据,是由金融专业人士从公告中总结出来的) 和 Text data(来自官方公告,从搜狐证券网扒下来的)
Method of data generation:
Event Extraction (EE)
由上图所示,事件抽取部分被分为SEE和DEE两个部分,其中SEE是从一个句子中抽取事件的触发词和相应的元素,DEE则是从整个Document中抽取并补全事件元素
Sentence-level Event Extraction (SEE)
SEE将抽取视为一个序列标注任务,采用Word2Vec
+ BiLSTM
+ CRF
实现
Document-level Event Extraction(DEE)
- Key event detection:如Figure 4右下所示,就是一个基于CNN分类器,其输入是由SEE阶段抽取的事件触发器和元素的表示(蓝色部分)和当前句子的向量表示(红色部分)Concatenated而成,经由分类器分类得到是否为key event
- Arguments-completion strategy:可以自动从周围的句子中补充缺失的事件元素
Evaluation
Dataset
由文章作者自己搜集,共包含4种事件Equity Freeze (EF) event, Equity Pledge (EP) event, Equity Repurchase (ER) event and Equity Overweight (EO) event,数据集的统计数据如下:
其中,NO.ANN表示自动标注的数量,NO.POS代表有事件提及的句子数量,而NO.NEG代表没有事件提及的数量。
关于自动标注数据相比于手动标注的准确率,如下图所示:
Performance
Conclusion
本篇文章提出DCFEE的框架用以解决中文金融领域的文档级事件抽取,同时提出事件自动标注的方法,用以解决数据匮乏的问题。
笔者的话:
文章提出的框架更贴近于框架的实际应用性,文章中出现了若干人为设计规则的地方,当然这些规则可以说是基本框架的锦上添花。