论文笔记 | 文档级别的中文金融事件抽取系统

最新推荐文章于 2022-07-25 11:43:46 发布

ZoelBro

最新推荐文章于 2022-07-25 11:43:46 发布

阅读量5.3k

点赞数 4

分类专栏： NOTE 文章标签：事件抽取远程监督

本文链接：https://blog.csdn.net/JYZ4MFC/article/details/81389619

版权

这篇论文介绍了DCFEE系统，它采用远程监督扩大训练数据，进行文档级的中文金融事件抽取。系统通过句子和文档两层事件抽取，以及Argument Completion，有效补充事件信息。论文中提出的模型包括Bi-LSTM+CRF进行句子级抽取和卷积神经网络进行文档级抽取。

摘要由CSDN通过智能技术生成

原论文：DCFEE: A Document-level Chinese Financial Event Extraction System based on Automatically Labeled Training Data (ACL 2018)

原论文的著作权属于中科院自动化所，本文仅进行了学习以及笔记工作。

1. 前言

我个人认为，事件抽取(Event Extraction)主要存在两方面的问题。第一个方面，训练数据的严重不足。拿经常用来做实验的公开数据集 ACE 2005 来说，各语言的文档数不过几百篇，如果要运用机器学习神经网络的方法进行测试，这样的数据量是不足够的。此外，ACE 2005中提供的事件不具备在垂直领域的可拓展性。第二个方面，事件抽取的实用性还不够。我之前看到过的事件抽取方向的论文，都是在句子的层面进行的事件抽取，但是这样有很明显的缺陷：一个事件涉及到触发词(Trigger)和多个事件元素(Argument)，我们很少能够遇到触发词和所有的事件元素都出现在同一个句子中这种非常理想的情况，也就是说，只从一个句子出发进行事件抽取，很容易抽取不出来Argument的信息。