1. Abstract
现有的信息提取系统如命名实体识别系统大多只能提取得到输入文本的序列依赖信息(sequential context)和局部依赖信息(local dependency context),但非局部(non-local)依赖信息与非序列(non-sequential)信息对于信息提取同样重要,论文针对这个问题提出GraphIE(Graph Information Extraction)框架,针对不同的信息提取任务(命名实体识别、社交网络信息提取、视觉信息提取)为输入数据设计特定的图结构,并使用图卷积网络GCN来提取图结构中的信息作为特征增强,本篇文章仅记录命名实体识别任务相关的内容。
2. Problem Definition
信息提取任务被定义为序列标记任务,论文额外假设输入的信息序列中还隐含有内在的图结构可以辅助提取文本单元(如word、sentence)之间的non-local、non-sequential依赖信息。
令输入数据为一个句子集合
- Sentence-level graph:每个图节点与输入文本中的句子一一对应,即,图边用来对句子之间的依赖关系进行编码。
- Word-level graph:每个图节点与输入文本中的单词一一对应,图边用来对单词之间的依赖关系如共指关系进行建模。
3. Method
GraphIE分为三个模块:encoder、graph module和decoder。其中encoder使用RNN提取文本单元之间的local、sequential依赖关系;graph module用于提取输入图结构之间所含有的non-local与non-sequential信息,图结构的具体构建方式将在实验部分介绍;decoder利用前两个模块提取得到的特征来进行序列标注。下面以sentence-level graph为例详细介绍这三部分内容。
3.1 Encoder
如图1所示,对于输入的句子:
其中
3.2 Graph module
令输入GCN的句子的节点特征为,GCN将作用于所有句子节点特征,通过在相邻节点之间进行信息传播来学习图结构隐含的依赖关系。第
其中
其中
由于每一层GCN仅能提取得到一阶的邻域特征,在实际应用中可以通过堆叠多层GCN来提取得到范围更广的长距离依赖。
3.3 Decoder
文章在Decoder部分使用了BiLSTM-CRF,在对句子的标签序列进行预测时,首先forward LSTM和backward LSTM都以GCN的输出
论文也尝试了以
3.4 Adaption to word-level graph
如图2所示当使用词语作为图节点构建图时,GCN直接对encoder输出的词语节点特征进行特征提取,decoder在GCN的输出上进行如下运算:
其中
4. Experiment
论文针对命名实体识别任务使用了word-level graph,所构建的graph中包括两种类型的边:
-
- Local edges:在相邻word之间,构建前向连接和后向连接两种有向边;
- Non-local edges:除停用词之外的所有词中,如果任俩个词有共指关系则为其添加边,通过这种方式旨在利用共指关系来消除句子级别NER可能产生的歧义现象。
论文以BiLSTM-CRF作为Baseline SeqIE。在CONLL2003和CHEMDNER数据集上的结果对比为:
论文对比的多是一些基于人工构建特征的方法,实验内容不是很丰富,近年来使用GNN来做NER的工作也不少,不过区别主要在于图结构的构建方式,显然人工构建图的方式能达到的优化效果有限,如何自动化地学习输入数据潜在的图结构是这一领域的突破口。
论文地址:
A Graph-Based Framework for Information Extractionexport.arxiv.org