Doc2EDAG:An End-to-End Document-level Framework for Chinese Financial Event Extraction
这篇论文被EMNLP2019接收,其创新点在于提出了新的端到端模型
事 件 抽 取 { 检 测 触 发 词 纯 文 本 提 取 参 数 事件抽取 \begin{cases} 检测触发词\\ 纯文本提取参数 \end{cases} 事件抽取{检测触发词纯文本提取参数
金 融 挑 战 { 事 件 要 素 分 散 多 事 件 金融挑战 \begin{cases} 事件要素分散\\ 多事件\\ \end{cases} 金融挑战{事件要素分散多事件
ACE 2005数据集针对的是句子集的,忽略分散论点
信息抽取的最新进展是能够同时抽取实体和识别其中的结构
两
个
阶
段
{
S
E
E
的
序
列
标
记
模
型
检
测
D
E
E
的
关
键
事
件
句
子
模
型
结
合
填
充
周
围
句
子
中
缺
失
参
数
的
启
发
式
策
略
两个阶段 \begin{cases} SEE的序列标记模型\\ 检测DEE的关键事件句子模型结合填充周围句子中缺失参数的启发式策略\\ \end{cases}
两个阶段{SEE的序列标记模型检测DEE的关键事件句子模型结合填充周围句子中缺失参数的启发式策略
第二阶段并不能解决多事件与参数分散的问题
核心思想:把事件表转化为基于实体的有向无环图
DAG方法:
假设存在着X,Y,Z三个变量,X是Y发生的原因,X也是Z发生的原因,即
Y
←
X
→
Z
Y\leftarrow X \rightarrow Z
Y←X→Z,由于X和Y是Z发生的共同原因,故Y和Z的无条件相关系数不为0,而当以X为条件变量,Y和Z两者的偏相关系数则为0。
当Y是X发生的原因,Z也是X发生的原因,即
Y
→
X
←
Z
Y \rightarrow X \leftarrow Z
Y→X←Z,这样Y和Z的无条件相关系数为0,而当以X为条件变量,Y和Z的偏相关系数则不为0.
当Y是X发生的原因,X是Z发生的原因,即
Y
→
X
→
Z
Y \rightarrow X \rightarrow Z
Y→X→Z,则Y和Z的无条件相关系数不为0,当X为条件变量,Y和Z的偏相关系数则为0。
有向无环图的特点:
(1)图中的节点可以通过有向边链接
(2)当结点s有一条有向路径到结点t时,必不存在一个可从结点t到结点s的有向路径。
DAG三种结构类型:
(1)每一个结点只有唯一的后继结点,即in-tree结构
(2)每一个结点只有唯一的前驱结点,即out-tree结构
(3)in-tree结构和out-tree结构混合为fork-join结构
本文的数据集:30%含有多个事件。
DS:distant supervision
一般用于关系抽取
使用DS与特定的约束可以使得篇章级的事件抽取效果很好
①知识库和文本文档来自同一领域
②一个事件记录通常包含多个参数,一个共同关系事实只包含两个实体
关键概念:
实体:实体对象的文本跨度
事件角色:对于事件表的预定义字段
事件参数:事件参数是扮演特定事件角色的实体
事件记录:一个事件记录对应于事件表的一个条目,并包含几个具有所需角色的参数
事件标签:
两 个 约 束 { 预 定 义 的 关 键 事 件 角 色 集 合 必 须 存 在 匹 配 参 数 的 数 量 应 高 于 某 个 阈 值 两个约束 \begin{cases} 预定义的关键事件角色集合必须存在\\ 匹配参数的数量应高于某个阈值\\ \end{cases} 两个约束{预定义的关键事件角色集合必须存在匹配参数的数量应高于某个阈值
无触发词的DEE任务:基于文档直接填充事件表
三
个
子
任
务
{
实
体
抽
取
:
提
取
实
体
作
为
参
数
候
选
事
件
检
测
:
判
断
文
档
是
否
针
对
每
个
事
件
类
型
触
发
事
件
表
填
充
:
将
参
数
填
充
到
触
发
事
件
表
中
三个子任务 \begin{cases} 实体抽取:提取实体作为参数候选\\ 事件检测:判断文档是否针对每个事件类型触发\\ 事件表填充:将参数填充到触发事件表中\\ \end{cases}
三个子任务⎩⎪⎨⎪⎧实体抽取:提取实体作为参数候选事件检测:判断文档是否针对每个事件类型触发事件表填充:将参数填充到触发事件表中
预 处 理 模 块 : { 输 入 表 示 实 体 识 别 预处理模块: \begin{cases} 输入表示\\ 实体识别\\ \end{cases} 预处理模块:{输入表示实体识别
输入识别:
将一个文档分为句子的序列
[
s
1
;
s
2
;
…
;
s
N
s
]
[s_1;s_2;\dots;s_{N_s}]
[s1;s2;…;sNs]
每一个句子又可以表示为
[
w
i
,
1
,
w
i
,
2
,
…
,
w
i
,
N
w
]
[w_{i,1},w_{i,2},\dots,w_{i,N_w}]
[wi,1,wi,2,…,wi,Nw]
其中
N
s
N_s
Ns和
N
w
N_w
Nw分别是句子序列和标签 序列的最大值
w
i
,
j
∈
R
d
w
w_{i,j}\in \R^{d_w}
wi,j∈Rdw是第j个标签在第i个句子中的嵌入,嵌入大小为
d
w
d_w
dw
实体识别:
BI-LSTM-CRF + Transformer
未完…