论文笔记 Bipartite Flat-Graph Network for Nested Named Entity Recognition | ACL2020

论文作者:

论文链接:https://arxiv.org/pdf/2005.00436.pdf 

代码实现:https://github.com/cslydia/BiFlaG 


 Abstract

作者为嵌套命名实体识别(nested NER)提出了新颖的二部平面图网络(bipartite flatgraph network, BiFlaG),它包含两个子图模型:针对最外层实体的非嵌套NER模型与针对位于内层的全部实体的图模型。作者采用双向LSTM与图卷积网络(graph convolutional network, GCN)联合学习非嵌套实体与它们的内部依赖。先前的模型仅考虑由最内层到外层(或由外到内)信息的单向传递,与它们不同的是,我们的模型可以有效捕捉到它们之间的双向交互。我们首先用非嵌套NER模型识别出的实体构建一个实体图,然后将其喂入下一个图模块中。从图模块中学习到的更丰富的表示形式携带了内部实体之间的依赖性,并且可以利用它改善最外层实体的预测。在三个标准嵌套NER数据集上的实验结果证明了 BiFlaG 比先前的 SOTA 模型表现更好。

1 Introdution

NER是识别包含预定义类别的名称的单词或短语,例如 location, organization, medical codes 这样的预定义类别。nested NER进一步处理可能互相嵌套的实体,例如 figure1 中的 the United Statesthird president of the United States。这种现象在NLP中十分普遍。

NER通常被视为序列标注任务( Lample et al., 2016; Ma and Hovy, 2016; Peters et al., 2017 )。这些方法仅仅对非嵌套实体奏效,而忽视了嵌套实体。人们一直在努力处理嵌套结构。Ju et al. 2018 介绍了一种分层序列标记模型,先识别最内层实体,再将它们送入下一层提取外部实体。然而,这种模型有着明显的错误传播。从前面层提取的错误实体将影响下一层的性能。而且,这样的分层模型还面临着高层的实体稀疏问题。例如,在 ACE2005 训练集中,第6层只有两个实体。Sohrab and Miwa 2018 提出了一个基于区域的方法,这种方法枚举了所有可能的区域,并对其实体类型进行分类。但这种模型可能忽视明确的边界信息。Zheng et al. 2019 将分层序列标记模型与基于区域的方法结合起来,先定位实体边界,再使用区域分类模型对实体进行预测。但这种模型很少关注位于外层和内层实体之间的相互作用。

作者在本论文中为嵌套NER提出了一种二部平面图网络(BiFlaG),该模型将包含任意多层的嵌套结构建模为两部分:最外层实体和剩余所有层的内层实体。例如,在 Figure1 中,最外层实体 Thomas Jefferson, third president of the United States 被视为非嵌套实体,而 third president of the United States(第二层)  the United States(第三层)被视为内层实体。具有最大覆盖的最外层实体通常由非嵌套NER模型识别,通常采用的是序列标注模型。所有内层实体是通过图模块提取出来的,图模块使用图卷积网络(GCN)在跨度的起点和终点之间迭代地传播信息(Kipf and Welling, 2017)。我们的模型有双重好处:(1)例如 (Ju et al., 2018)这样的分层模型面临着从低到高层的信息单向传播的约束,与此不同的是,作者所提出的模型以双向方式完全捕捉到了最外层与内层之间的相互作用。从非嵌套模型提取出的实体被用来为图模块构建实体图。接着,从图模块学习到的新的表示形式被反馈到非嵌套模型中以提高最外层实体的预测。将所有位于内层的实体合并到图模块中还可以有效减轻高层实体的稀疏性。(2)与基于区域的模型(Sohrab and Miwa, 2018; Zheng et al., 2019)相比,作者所提出的模型充分利用了最外层实体的序列信息,这些信息在语料库中占很大比例。

这篇论文的主要贡献可以总结如下:

  • 为嵌套 NER 引入了一个名为 BiFlaG 的新颖的二部平面-图网络,该网络包含用于最外层实体的非嵌套模块和用于内层实体的图模块。
  • BiFlaG 充分利用了最外层实体的序列信息,同时双向考虑了最外层与内层之间的相互作用,而不是信息的单向传递。
  • 作者在三个基准数据集( ACE2005, GENIA, and KBP2017 )上进行了广泛实验,所提出的模型在相同设置下的性能要优于先前的 SOTA 模型。

2 Model

BiFlaG 包含两个子模块,一个用来学习最外层实体的非嵌套 NER 模块,一个用来学习内层实体的图模块。Figure2 是模型的概述。非嵌套模块采取 BiLSTM-CRF 提取最外层实体,并使用其构建 Figure2 中的实体图G^{1}。图模块使用 GCN 在潜在实体的起点和终点之间迭代地传播信息来学习内层实体。最终,从图模块学到的表示形式进一步反馈到非嵌套模块中更好地进行最外层预测。

2.1 Token Representation

给定一个由 个 token 组成的序列 \left \{t_{1},t_{2},...,t_{N} \right \} ,对于每一个 token t_{i},我们先将单词级别和字符子别的嵌入拼接起来t_{i}=[w_{i};c_{i}]w_{i} 是预训练的单词嵌入,c_{i} 是从 (Xin et al., 2018) 的工作中学到的字符嵌入。然后我们使用 BiLSTM 为每一个token 捕获序列信息 x_{i}=BILSTM(t_{i})。我们将 x_{i} 作为单词表示形式,并将其提供给后续模块。

2.2 Flat NER Module

作者在非嵌套模块中采取 BiLSTM-CRF 结构(Lample et al., 2016; Ma and Hovy, 2016; Yang and Zhang, 2018; Luo et al., 2020) 识别非嵌套实体,该结构由双向 LSTMBiLSTM)编码器和条件随机场(CRF)解码器组成。

BiLSTM 捕获句子双向的上下文信息&#x

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值