[论文阅读笔记14]Nested named entity recognition revisited

最新推荐文章于 2024-08-16 08:27:22 发布

happyprince

最新推荐文章于 2024-08-16 08:27:22 发布

阅读量1.6k

点赞数 2

分类专栏： NER 深度学习 NLP 文章标签：人工智能自然语言处理机器学习

本文链接：https://blog.csdn.net/ld326/article/details/113352263

版权

NLP 同时被 3 个专栏收录

79 篇文章 6 订阅

订阅专栏

深度学习

40 篇文章 5 订阅

订阅专栏

NER

39 篇文章 14 订阅

订阅专栏

一，题目

Nested Named Entity Recognition Revisited
重访问的嵌套命名实体识别

二，作者

Arzoo Katiyar and Claire Cardie
Department of Computer Science
Cornell University 康奈尔大学 (世界顶级私立研究型大学,2021QS世界大学排名世界第18)
Ithaca, NY, 14853, USA

三，摘要

对RNN的创新，提出识别与检测嵌套NER的方法，从RNN中抽取出一个超图表示。
对三个数据集（ACE2004，ACE2005，GENIA）做了实验，效果显著于存在的 state-of-the-art效果，同时效率方面也是线性时间复杂度。

四，解决什么问题?

一个比较普遍的问题，实体嵌套，GENIA占17%，ACE占30%等，实体嵌套如下这样：

（S1）中， “human B cell line” 与“EBV - transformed human B cell line”都为类型为CELL_LINE实体。
（S2）中， LOCATION把PERSIONF进行了嵌套。

五，已经有什么方法？

总的来说处理Nested NER的方法，通常为基于特征的方法，这些方法都得手工特征，这些方面不可用效果超好的RNN方法：

已有的方法	说明
Alex et al.（2007）	提出了一个cascaded（级联） CRF model，但不可以识别实体种类；
Finkel and Manning(2009)	对于句子中的每个实体的成份构建成份分析器(constituency parser)；可是这个时间复杂度比较大,大O的句子token长度N的三次方。
Lu and Roth(2015)	接上面的方法，提出了基于超图的线性时间复杂度的方法
Muis and Lu (2017)	基于mentions分离器提出多图表示
Klein and Manning ( 2001)	介绍有向超图

本文提出：基于RNN方法去处理嵌套命名识别与检测。基于标准RNN进行修改，处理起来是线性的，这个神经网络还联合了实体mention的核心词子任务，这个子任务对于信息抽取作用很大。

超图表达与论文Lu and Roth(2015)[Joint mention extraction and classifification with mention hypergraphs]是比较像的。

六，编码方案

关于超图模型

对于Nested NER，glod标注画出来结果为：

把这个需求转化成如下的有向超图结构，曲线表示超弧，直线表示正规边：

对BILOU的图表达，可见是参过折叠共享状态的节点来形成。例如，对于“that”，由三个“O”来表示，下面的图把这个节点变成了一个节点，同理，两个“B_PER”也变成了一个节点。
如果按照规则折叠，图2相对于图1却多出了一个对应于“this”的“O”. 规定：在具体任务的超图构建中，须保证在每个建模新实体开头的可能性时间步中存在“O”节点。
设计一个基于LSTM神经网络把句子构建Nested实体超图。
贪婪地在训练时根据gold标签构建一个子超图；

关于边的概率

**超弧(hyperarces)与正规边（normal edges）**区别：
edge: 单个尾部节点连接单个头部节点;
arce: 头部与尾部超过一个节点；

七，方法模型

7.1 多层Bi-LSTM

这个充当编码器

这个Bi-LSTM的前后合并是经过线性组合来完成。

7.2 顶层隐含层

包含超图思想的解码器。
这层的输入有三个信息，编码器的结果z,上一个时间步的隐状h,上个时间步的输出g.

最终结果对每个标注进行了合并

这里的k表示第k个标注

7.3 实体抽取

对于图的超弧(hyperarces)，使用一个多标注训练目标。

八. 训练

使用两个不同的多标签学习目标函数来训练模型，两个损失函数：
Softmax

Sparsemax

九. 解码（inference）

在学习阶段，每一个时间步这个最可能的标注集是以前一个时间步的gold标注为条件学习到的。而在测阶段，这个是不成立的。所以inference是使用上一个预测的时间步来代替gold的标注作为当前步的输入来获取标注集；这里使用了阈值T去决定预测的标注集合:

对于ACE数据集实体核心词建模

通过联合实体mentions与其实体词建模。

基于原模型只改变输出标签序列; 介绍了带有“H”的新标签。

十，实验

10.1 实验一 – ACE

数据集： ACE2004 and ACE2005

评估指标：找出实体及实体类型正确才算是正确

baseline:

基线	说明
MH-F (Lu and Roth,2015)	基于特征的超图结构，实体检测与联合实体，还有实体核心词抽取
Muis and Lu(2017)	只实体mention检测，没有核心词
Lu and Roth (2015)	基于CRF方法
LSTM-flflat	标准的序列标注LSTM模型，不可以处理Nested形式
LSTM-output layer	超图模型，只用了输出层依赖，对于顶层的隐含层与标注嵌入与前时间步没有依赖。

结果：