论文笔记 | 文档级别的中文金融事件抽取系统

这篇论文介绍了DCFEE系统,它采用远程监督扩大训练数据,进行文档级的中文金融事件抽取。系统通过句子和文档两层事件抽取,以及Argument Completion,有效补充事件信息。论文中提出的模型包括Bi-LSTM+CRF进行句子级抽取和卷积神经网络进行文档级抽取。
摘要由CSDN通过智能技术生成

原论文:DCFEE: A Document-level Chinese Financial Event Extraction System based on Automatically Labeled Training Data (ACL 2018)

原论文的著作权属于中科院自动化所,本文仅进行了学习以及笔记工作。

1. 前言

我个人认为,事件抽取(Event Extraction)主要存在两方面的问题。第一个方面,训练数据的严重不足。拿经常用来做实验的公开数据集 ACE 2005 来说,各语言的文档数不过几百篇,如果要运用机器学习神经网络的方法进行测试,这样的数据量是不足够的。此外,ACE 2005中提供的事件不具备在垂直领域的可拓展性。第二个方面,事件抽取的实用性还不够。我之前看到过的事件抽取方向的论文,都是在句子的层面进行的事件抽取,但是这样有很明显的缺陷:一个事件涉及到触发词(Trigger)和多个事件元素(Argument),我们很少能够遇到触发词和所有的事件元素都出现在同一个句子中这种非常理想的情况,也就是说,只从一个句子出发进行事件抽取,很容易抽取不出来Argument的信息。

一个事件出现在多个句子中
一个事件出现在多个句子中

在这篇论文中,研究人员描述了一个从文档层面出发进行事件抽取的系统,此外,他们还将远程监督这(Distance Supervision)一方法应用到事件抽取领域,使得训练集的自动拓展在一定程度上成为了可能。可以说这篇论文试图同时解决上面提到的事件抽取存在的两方面问题。

2. 思路

2.1 扩充训练语料

利用远程监督(Distance Supervision)的方法进行训练数据集的扩充。远程监督是一种训练集扩充的方法,在关系抽取和事件抽取任务中都已经得到了应用。我们先拿关系抽取中的远程监督举例:

评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值