阅读笔记—2019_05 Doc2EDAG:An End-to-End Document-level Framework for Chinese Financial Event Extraction

Doc2EDAG:An End-to-End Document-level Framework for Chinese Financial Event Extraction

论文下载链接

这篇论文被EMNLP2019接收,其创新点在于提出了新的端到端模型

事 件 抽 取 { 检 测 触 发 词 纯 文 本 提 取 参 数 事件抽取 \begin{cases} 检测触发词\\ 纯文本提取参数 \end{cases} {

金 融 挑 战 { 事 件 要 素 分 散 多 事 件 金融挑战 \begin{cases} 事件要素分散\\ 多事件\\ \end{cases} {

ACE 2005数据集针对的是句子集的,忽略分散论点

信息抽取的最新进展是能够同时抽取实体和识别其中的结构

两 个 阶 段 { S E E 的 序 列 标 记 模 型 检 测 D E E 的 关 键 事 件 句 子 模 型 结 合 填 充 周 围 句 子 中 缺 失 参 数 的 启 发 式 策 略 两个阶段 \begin{cases} SEE的序列标记模型\\ 检测DEE的关键事件句子模型结合填充周围句子中缺失参数的启发式策略\\ \end{cases} {SEEDEE
第二阶段并不能解决多事件与参数分散的问题

核心思想:把事件表转化为基于实体的有向无环图

DAG方法:

假设存在着X,Y,Z三个变量,X是Y发生的原因,X也是Z发生的原因,即 Y ← X → Z Y\leftarrow X \rightarrow Z YXZ,由于X和Y是Z发生的共同原因,故Y和Z的无条件相关系数不为0,而当以X为条件变量,Y和Z两者的偏相关系数则为0。
当Y是X发生的原因,Z也是X发生的原因,即 Y → X ← Z Y \rightarrow X \leftarrow Z YXZ,这样Y和Z的无条件相关系数为0,而当以X为条件变量,Y和Z的偏相关系数则不为0.
当Y是X发生的原因,X是Z发生的原因,即 Y → X → Z Y \rightarrow X \rightarrow Z YXZ,则Y和Z的无条件相关系数不为0,当X为条件变量,Y和Z的偏相关系数则为0。

有向无环图的特点:

(1)图中的节点可以通过有向边链接
(2)当结点s有一条有向路径到结点t时,必不存在一个可从结点t到结点s的有向路径。

DAG三种结构类型:
(1)每一个结点只有唯一的后继结点,即in-tree结构
(2)每一个结点只有唯一的前驱结点,即out-tree结构
(3)in-tree结构和out-tree结构混合为fork-join结构

本文的数据集:30%含有多个事件。

DS:distant supervision

一般用于关系抽取

使用DS与特定的约束可以使得篇章级的事件抽取效果很好
①知识库和文本文档来自同一领域
②一个事件记录通常包含多个参数,一个共同关系事实只包含两个实体

关键概念:

实体:实体对象的文本跨度
事件角色:对于事件表的预定义字段
事件参数:事件参数是扮演特定事件角色的实体
事件记录:一个事件记录对应于事件表的一个条目,并包含几个具有所需角色的参数

事件标签:

两 个 约 束 { 预 定 义 的 关 键 事 件 角 色 集 合 必 须 存 在 匹 配 参 数 的 数 量 应 高 于 某 个 阈 值 两个约束 \begin{cases} 预定义的关键事件角色集合必须存在\\ 匹配参数的数量应高于某个阈值\\ \end{cases} {

无触发词的DEE任务:基于文档直接填充事件表
三 个 子 任 务 { 实 体 抽 取 : 提 取 实 体 作 为 参 数 候 选 事 件 检 测 : 判 断 文 档 是 否 针 对 每 个 事 件 类 型 触 发 事 件 表 填 充 : 将 参 数 填 充 到 触 发 事 件 表 中 三个子任务 \begin{cases} 实体抽取:提取实体作为参数候选\\ 事件检测:判断文档是否针对每个事件类型触发\\ 事件表填充:将参数填充到触发事件表中\\ \end{cases}
在这里插入图片描述

预 处 理 模 块 : { 输 入 表 示 实 体 识 别 预处理模块: \begin{cases} 输入表示\\ 实体识别\\ \end{cases} {

输入识别:

将一个文档分为句子的序列 [ s 1 ; s 2 ; …   ; s N s ] [s_1;s_2;\dots;s_{N_s}] [s1;s2;;sNs]
每一个句子又可以表示为 [ w i , 1 , w i , 2 , … , w i , N w ] [w_{i,1},w_{i,2},\dots,w_{i,N_w}] [wi,1,wi,2,,wi,Nw]
其中 N s N_s Ns N w N_w Nw分别是句子序列和标签 序列的最大值
w i , j ∈ R d w w_{i,j}\in \R^{d_w} wi,jRdw是第j个标签在第i个句子中的嵌入,嵌入大小为 d w d_w dw

实体识别:

BI-LSTM-CRF + Transformer

未完…

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值