【论文阅读01】DCFEE: A Document-level Chinese Financial Event Extraction System based on Automatically Lab

本文介绍了一种针对中文金融文档的事件抽取系统DCFEE,它利用自动标注技术解决数据匮乏问题,包括数据生成方法、模型架构(包括sentence-level和document-level事件抽取)、以及自动生成的标签在性能评估中的表现。系统已在实际应用中部署,有效提升了文档事件提取效率。
摘要由CSDN通过智能技术生成

【论文阅读01】DCFEE: A Document-level Chinese Financial Event Extraction System based on Automatically Labeled Training Data

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HUyr7hI7-1640763611683)(%E3%80%90%E8%AE%BA%E6%96%87%E9%98%85%E8%AF%BB%E3%80%91DCFEE%20A%20Document-level%20Chinese%20Financial%20Event%20Extraction%20System%20based%20on%20Automatically%20Labeled%20Training%20Data.assets/image-20211229101034511.png)]

关键词:文档级事件抽取;中文、金融领域;自动生成标签

本文聚焦于中文金融领域的文档级事件抽取,主要解决以下两个挑战:

  1. 数据匮乏
  2. 文档级事件抽取

本文的贡献点总结如下:

  1. 提出DCFEE框架,该框架能够自动抽取大量的标注数据并且能够从金融公告中抽取文档级的事件
  2. 提出一个自动标记方法并给出一些关于构建中文金融事件抽取数据集的tips
  3. 提出的框架已经被成功部署为在线系统(喵喵喵?)

Methodology

在这里插入图片描述

模型主要包括两个部分:

  1. Data Generation:该部分使用远程监督来从整个文档中自动标记事件提及 和 从事件提及中标注触发器和参数
  2. EE system:该部分由句子级事件抽取(SEE)和文档级事件抽取(DEE)两个模块构成,其中SEE使用的是句子级的标注数据,而DEE使用的是文档级的标注数据

Data Generation

在这里插入图片描述

Data Source:由上图可知,该系统在自动生成数据时用到的两种数据源 Financial event knowledge base(该数据源①包括9种常见的财务事件类型,并以表格式存储②这些结构化数据包含了关键的事件论据,是由金融专业人士从公告中总结出来的) 和 Text data(来自官方公告,从搜狐证券网扒下来的)

Method of data generation

Event Extraction (EE)

在这里插入图片描述

由上图所示,事件抽取部分被分为SEE和DEE两个部分,其中SEE是从一个句子中抽取事件的触发词和相应的元素,DEE则是从整个Document中抽取并补全事件元素

Sentence-level Event Extraction (SEE)

SEE将抽取视为一个序列标注任务,采用Word2Vec + BiLSTM + CRF实现

Document-level Event Extraction(DEE)

  • Key event detection:如Figure 4右下所示,就是一个基于CNN分类器,其输入是由SEE阶段抽取的事件触发器和元素的表示(蓝色部分)和当前句子的向量表示(红色部分)Concatenated而成,经由分类器分类得到是否为key event
  • Arguments-completion strategy:可以自动从周围的句子中补充缺失的事件元素

Evaluation

Dataset

由文章作者自己搜集,共包含4种事件Equity Freeze (EF) event, Equity Pledge (EP) event, Equity Repurchase (ER) event and Equity Overweight (EO) event,数据集的统计数据如下:

在这里插入图片描述

其中,NO.ANN表示自动标注的数量,NO.POS代表有事件提及的句子数量,而NO.NEG代表没有事件提及的数量。

关于自动标注数据相比于手动标注的准确率,如下图所示:

在这里插入图片描述

Performance

在这里插入图片描述

在这里插入图片描述

Conclusion

本篇文章提出DCFEE的框架用以解决中文金融领域的文档级事件抽取,同时提出事件自动标注的方法,用以解决数据匮乏的问题。

笔者的话

文章提出的框架更贴近于框架的实际应用性,文章中出现了若干人为设计规则的地方,当然这些规则可以说是基本框架的锦上添花。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值