一, 题目
Nested Named Entity Recognition Revisited
重访问的嵌套命名实体识别
二, 作者
Arzoo Katiyar and Claire Cardie
Department of Computer Science
Cornell University 康奈尔大学 (世界顶级私立研究型大学,2021QS世界大学排名世界第18)
Ithaca, NY, 14853, USA
三,摘要
对RNN的创新,提出识别与检测嵌套NER的方法,从RNN中抽取出一个超图表示。
对三个数据集(ACE2004,ACE2005,GENIA)做了实验,效果显著于存在的 state-of-the-art效果,同时效率方面也是线性时间复杂度。
四,解决什么问题?
一个比较普遍的问题,实体嵌套,GENIA占17%,ACE占30%等,实体嵌套如下这样:
(S1)中, “human B cell line” 与“EBV - transformed human B cell line”都为类型为CELL_LINE实体。
(S2)中, LOCATION把PERSIONF进行了嵌套。
五,已经有什么方法?
总的来说处理Nested NER的方法,通常为基于特征的方法,这些方法都得手工特征,这些方面不可用效果超好的RNN方法:
已有的方法 | 说明 |
---|---|
Alex et al.(2007) | 提出了一个cascaded(级联) CRF model,但不可以识别实体种类; |
Finkel and Manning(2009) | 对于句子中的每个实体的成份构建成份分析器(constituency parser);可是这个时间复杂度比较大,大O的句子token长度N的三次方。 |
Lu and Roth(2015) | 接上面的方法,提出了基于超图的线性时间复杂度的方法 |
Muis and Lu (2017) | 基于mentions分离器提出多图表示 |
Klein and Manning ( 2001) | 介绍有向超图 |
本文提出:基于RNN方法去处理嵌套命名识别与检测。基于标准RNN进行修改,处理起来是线性的,这个神经网络还联合了实体mention的核心词子任务,这个子任务对于信息抽取作用很大。
超图表达与论文Lu and Roth(2015)[Joint mention extraction and classifification with mention hypergraphs]是比较像的。
六,编码方案
关于超图模型
对于Nested NER,glod标注画出来结果为:
把这个需求转化成如下的有向超图结构,曲线表示超弧,直线表示正规边:
对BILOU的图表达,可见是参过折叠共享状态的节点来形成。例如,对于“that”,由三个“O”来表示,下面的图把这个节点变成了一个节点,同理,两个“B_PER”也变成了一个节点。
如果按照规则折叠,图2相对于图1却多出了一个对应于“this”的“O”. 规定: 在具体任务的超图构建中,须保证在每个建模新实体开头的可能性时间步中存在“O”节点。
设计一个基于LSTM神经网络把句子构建Nested实体超图。
贪婪地在训练时根据gold标签构建一个子超图;
关于边的概率
**超弧(hyperarces)与正规边(normal edges)**区别:
edge: 单个尾部节点连接单个头部节点;
arce: 头部与尾部超过一个节点;
七,方法模型
7.1 多层Bi-LSTM
这个充当编码器
这个Bi-LSTM的前后合并是经过线性组合来完成。
7.2 顶层隐含层
包含超图思想的解码器。
这层的输入有三个信息,编码器的结果z,上一个时间步的隐状h,上个时间步的输出g.
最终结果对每个标注进行了合并
这里的k表示第k个标注
7.3 实体抽取
对于图的超弧(hyperarces),使用一个多标注训练目标。
八. 训练
使用两个不同的多标签学习目标函数来训练模型,两个损失函数:
Softmax
Sparsemax
九. 解码(inference)
在学习阶段,每一个时间步这个最可能的标注集是以前一个时间步的gold标注为条件学习到的。而在测阶段,这个是不成立的。所以inference是使用上一个预测的时间步来代替gold的标注作为当前步的输入来获取标注集;这里使用了阈值T去决定预测的标注集合:
对于ACE数据集实体核心词建模
通过联合实体mentions与其实体词建模。
基于原模型只改变输出标签序列; 介绍了带有“H”的新标签。
十,实验
10.1 实验一 – ACE
数据集: ACE2004 and ACE2005
评估指标:找出实体及实体类型正确才算是正确
baseline:
基线 | 说明 |
---|---|
MH-F (Lu and Roth,2015) | 基于特征的超图结构,实体检测与联合实体,还有实体核心词抽取 |
Muis and Lu(2017) | 只实体mention检测,没有核心词 |
Lu and Roth (2015) | 基于CRF方法 |
LSTM-flflat | 标准的序列标注LSTM模型,不可以处理Nested形式 |
LSTM-output layer | 超图模型,只用了输出层依赖,对于顶层的隐含层与标注嵌入与前时间步没有依赖。 |
结果:
- 提出的模型比较SOA的结果要好。
- LSTM-flat缺nested的学习能力;
- 只留下输出层依赖,不带入其它两个输入效果不是很好,虽然它比较之前的研究好。
- sparesemax比较softmax要好。
另外对于实体Mention及它的核心词预测结果,显示本文还是优于前者。由于头的标注加入,预测的可能标注也在增加,导致结果是在没有加入头标注时效果会好一些。
10.2 实验二–GENIA
数据集:GENIA
Baselines:
引用 | 说明 |
---|---|
Finkel and Manning(2009) | 成份CRF解析器 |
Lu and Roth (2015) | 超图模型 |
Muis and Lu (2017) | 多图模型 |
十一,总结
提出了基于RNN模型来实现超图模型的方法。结果超出以之前的研究模型。
展望:对于这个超图结构与全局地训练的模型,去学习输出标注之间的全局依赖被感兴趣的。
对于Nested是一种新的认识吧。想法与实现方式是两个不同的概念,从这里可以很好的感受到。一个基于超图的模型,而对于实现是基于LSTM的改进来实出。细节没有来得及去深入理解,就把握了一个整体的方向。
另外,论文的行文思路是,从高处一步步细化,一步一步落实到实验。暂时没有发现这个论文的代码,如有代码再一探细节。其实对于label embedding 那层还是很不清楚的,这个怎么就可以表示多个标注了呢?还有那个V向量也没有说明一下是怎么回事?
参考
constituency parse tree(成分解析树):A constituency parse tree breaks a text into sub-phrases.
解析树从表示整个句子的根S开始,到表示句子中的每个单词的每个叶子节点结束。使用以下缩写:
S代表句子,最高级的结构。
NP代表名词短语,包括句子的主语和宾语。
VP代表动词短语,用作谓语。
V代表动词。
D代表限定词,如定冠词the
N代表名词
sparsemax函数
sparsemax是2016年提出的。
Softmax:
softmax缺点:每个向量位置都有值。
文章From Softmax to Sparsemax:A Sparse Model of Attention and Multi-Label Classification 提出了能够输出稀疏概率的Sparsemax。
这里把输入z和某个分布p的欧式距离最小化。
by happyprince.https://blog.csdn.net/ld326/article/details/113352263