命名实体识别数据集_命名实体识别GraphIE

1a9eeb70652cc9c2c5da8359e546d815.png

1. Abstract

现有的信息提取系统如命名实体识别系统大多只能提取得到输入文本的序列依赖信息(sequential context)和局部依赖信息(local dependency context),但非局部(non-local)依赖信息与非序列(non-sequential)信息对于信息提取同样重要,论文针对这个问题提出GraphIE(Graph Information Extraction)框架,针对不同的信息提取任务(命名实体识别、社交网络信息提取、视觉信息提取)为输入数据设计特定的图结构,并使用图卷积网络GCN来提取图结构中的信息作为特征增强,本篇文章仅记录命名实体识别任务相关的内容。

2. Problem Definition

信息提取任务被定义为序列标记任务,论文额外假设输入的信息序列中还隐含有内在的图结构可以辅助提取文本单元(如word、sentence)之间的non-local、non-sequential依赖信息。

令输入数据为一个句子集合

和一个图结构
,其中
为图节点集合,
是图边集合,每个句子是一个单词序列:
,信息提取任务为每个句子输出对应的词语标签:
。对于隐含的图结构,论文中考虑了两种粒度的设计方式:
  1. Sentence-level graph:每个图节点与输入文本中的句子一一对应,即,图边用来对句子之间的依赖关系进行编码。
  2. Word-level graph:每个图节点与输入文本中的单词一一对应,图边用来对单词之间的依赖关系如共指关系进行建模。

3. Method

GraphIE分为三个模块:encoder、graph module和decoder。其中encoder使用RNN提取文本单元之间的local、sequential依赖关系;graph module用于提取输入图结构之间所含有的non-local与non-sequential信息,图结构的具体构建方式将在实验部分介绍;decoder利用前两个模块提取得到的特征来进行序列标注。下面以sentence-level graph为例详细介绍这三部分内容。

d6338f69da69b0975aebe3bad28870e7.png
图1 Sentence-level graph

3.1 Encoder

如图1所示,对于输入的句子:

,每个word
都有一个对应的输入特征
,文中使用GLoVE词向量和CharCNN得到的字符向量拼接得到
,在encoder部分,论文使用RNN来提取单词之间的local、sequential信息:

其中

表示RNN输出1到k时间步的的隐向量,
表示RNN在1到k时间步的输入,
代表初始化为零向量的RNN初始隐状态,
代表encoder的参数。论文中具体使用了Bi-LSTM来完成这部分工作,并使用各时间步输出隐状态的平均值作为句子的特征输出:

3.2 Graph module

令输入GCN的句子的节点特征为,GCN将作用于所有句子节点特征,通过在相邻节点之间进行信息传播来学习图结构隐含的依赖关系。第

层GCN由两部分组成:第一部分进一步提取上一层GCN的节点输出特征:

其中

是可学习的映射参数,而第二部分则用于提取当前节点的邻域节点集所提供的特征:

其中

是节点
的度,用来对
进行标准化,来确保度不同的节点得到的
有相同的数值范围,具体的对于有向图来说,
包含了不同的信息,因此对于这两种边,文章采取了类似于relational GCN的方式,对不同类型的边,采取不同的参数
。最终,在
的基础上计算得到层GCN的输出:

由于每一层GCN仅能提取得到一阶的邻域特征,在实际应用中可以通过堆叠多层GCN来提取得到范围更广的长距离依赖。

3.3 Decoder

文章在Decoder部分使用了BiLSTM-CRF,在对句子的标签序列进行预测时,首先forward LSTM和backward LSTM都以GCN的输出

作为隐状态初始化,并计算得到中间结果

论文也尝试了以

直接拼接并使用零向量初始化隐状态的方式来引入GCN提取的特征,但是实际效果没有上述将
作为初始隐状态的方式好,最后CRF在
的基础上进行序列标签预测。

3.4 Adaption to word-level graph

ad258c38839be659589a976a85d49b17.png
图2 Word-level graph

如图2所示当使用词语作为图节点构建图时,GCN直接对encoder输出的词语节点特征进行特征提取,decoder在GCN的输出上进行如下运算:

其中

代表GCN对词语
的编码结果。

4. Experiment

论文针对命名实体识别任务使用了word-level graph,所构建的graph中包括两种类型的边:

    1. Local edges:在相邻word之间,构建前向连接和后向连接两种有向边;
    2. Non-local edges:除停用词之外的所有词中,如果任俩个词有共指关系则为其添加边,通过这种方式旨在利用共指关系来消除句子级别NER可能产生的歧义现象。

论文以BiLSTM-CRF作为Baseline SeqIE。在CONLL2003和CHEMDNER数据集上的结果对比为:

86dd5900e3ea29da934cca4d795bf29f.png
图3 Results on CoNLL03 and CHEMDNER

论文对比的多是一些基于人工构建特征的方法,实验内容不是很丰富,近年来使用GNN来做NER的工作也不少,不过区别主要在于图结构的构建方式,显然人工构建图的方式能达到的优化效果有限,如何自动化地学习输入数据潜在的图结构是这一领域的突破口。

论文地址:

A Graph-Based Framework for Information Extraction​export.arxiv.org
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值