阅读笔记—2019_05 Doc2EDAG:An End-to-End Document-level Framework for Chinese Financial Event Extraction

最新推荐文章于 2023-04-02 09:36:59 发布

KimLee1895

最新推荐文章于 2023-04-02 09:36:59 发布

阅读量1.9k

点赞数

分类专栏：组会周报文章标签：事件抽取 EMNLP2019

本文链接：https://blog.csdn.net/Rou_l/article/details/102826822

版权

组会周报专栏收录该内容

6 篇文章 0 订阅

订阅专栏

Doc2EDAG:An End-to-End Document-level Framework for Chinese Financial Event Extraction

论文下载链接

这篇论文被EMNLP2019接收，其创新点在于提出了新的端到端模型

$\begin{cases} 检测触发词\\ 纯文本提取参数 \end{cases}$

$\begin{cases} 事件要素分散\\ 多事件\\ \end{cases}$

ACE 2005数据集针对的是句子集的，忽略分散论点

信息抽取的最新进展是能够同时抽取实体和识别其中的结构

$\begin{cases} SEE的序列标记模型\\ 检测DEE的关键事件句子模型结合填充周围句子中缺失参数的启发式策略\\ \end{cases}$
第二阶段并不能解决多事件与参数分散的问题

核心思想：把事件表转化为基于实体的有向无环图

DAG方法：

假设存在着X,Y,Z三个变量，X是Y发生的原因，X也是Z发生的原因，即 $Y\leftarrow X \rightarrow Z$ ，由于X和Y是Z发生的共同原因，故Y和Z的无条件相关系数不为0，而当以X为条件变量，Y和Z两者的偏相关系数则为0。
当Y是X发生的原因，Z也是X发生的原因，即 $\rightarrow X \leftarrow Z$ ，这样Y和Z的无条件相关系数为0，而当以X为条件变量，Y和Z的偏相关系数则不为0.
当Y是X发生的原因，X是Z发生的原因，即 $\rightarrow X \rightarrow Z$ ，则Y和Z的无条件相关系数不为0，当X为条件变量，Y和Z的偏相关系数则为0。

有向无环图的特点：

（1）图中的节点可以通过有向边链接
（2）当结点s有一条有向路径到结点t时，必不存在一个可从结点t到结点s的有向路径。

DAG三种结构类型：
（1）每一个结点只有唯一的后继结点，即in-tree结构
（2）每一个结点只有唯一的前驱结点，即out-tree结构
（3）in-tree结构和out-tree结构混合为fork-join结构

本文的数据集：30%含有多个事件。

DS：distant supervision

一般用于关系抽取

使用DS与特定的约束可以使得篇章级的事件抽取效果很好
①知识库和文本文档来自同一领域
②一个事件记录通常包含多个参数，一个共同关系事实只包含两个实体

关键概念：

实体：实体对象的文本跨度
事件角色：对于事件表的预定义字段
事件参数：事件参数是扮演特定事件角色的实体
事件记录：一个事件记录对应于事件表的一个条目，并包含几个具有所需角色的参数

事件标签：

$\begin{cases} 预定义的关键事件角色集合必须存在\\ 匹配参数的数量应高于某个阈值\\ \end{cases}$

无触发词的DEE任务：基于文档直接填充事件表
$\begin{cases} 实体抽取：提取实体作为参数候选\\ 事件检测：判断文档是否针对每个事件类型触发\\ 事件表填充：将参数填充到触发事件表中\\ \end{cases}$
在这里插入图片描述

$\begin{cases} 输入表示\\ 实体识别\\ \end{cases}$

输入识别：

将一个文档分为句子的序列 $[s_1;s_2;\dots;s_{N_s}]$
每一个句子又可以表示为 $[w_{i,1},w_{i,2},\dots,w_{i,N_w}]$
其中 $N_s$ 和 $N_w$ 分别是句子序列和标签序列的最大值
$w_{i,j}\in \R^{d_w}$ 是第j个标签在第i个句子中的嵌入，嵌入大小为 $d_w$