Nested Named Entity Recognition with Span-level Graphs阅读笔记

最新推荐文章于 2024-07-25 14:12:59 发布

Yuka12356

最新推荐文章于 2024-07-25 14:12:59 发布

阅读量147

点赞数

文章标签：笔记

本文链接：https://blog.csdn.net/m0_45223146/article/details/132013489

版权

介绍

嵌套实体识别的三类探索：1）超图：使用显式超图来表示可能的嵌套结构或研究图形的词汇/句法特征；2）分层：通过动作序列或分层模型构建嵌套结构；3）跨度：直接枚举句子中的跨度，并对每个跨度进行分类预测。基于跨度的方法采用了最简单直接的公式作为跨度分类。
问题：1）模型很难充分利用span中丰富的语义；2）正例和负例大量重叠时，基于span的模型通常会混淆；长实体与其相似跨度之间的微小差异很容易欺骗基于跨度的模型；3）对于训练没见过的跨度验证期间变得困难，并且这些嵌套实体还在验证集上还大量出现。 ACE2004, ACE2005, and GENIA中验证集的实体提及在训练集中出现的次数少于三次分别占53.06%, 41.64% and 51.42%。
总结：1）作者利用基于检索的跨度级别图提升span的representation。2）直观的假设是，与候选跨度相似的实体跨度存在用于区分候选跨度的相关信息。具体来说，作者将每个实体和原始span视为节点，将具有高n-gram相似度的进行连接，构建起来的span级异构图记录了实体和各种原始span间词汇的相关性。3）通过检测到局部子图增强span representation，检索到的子图上使用GCN执行消息传递，以获取邻居实体表示，邻居实体的表示比句子提供了更丰富的相关性，从而提高了混淆长跨度和低频跨度的性能。
贡献：1）在嵌套NER任务上引入了基于检索的跨度级图。用跨度图建模句子（不只是当前句子）的候选实体和跨度的词汇相关性。2）使用 GCN 执行消息传递并进行多任务学习，以有效地从候选span的实体邻居中提取丰富的信息。3)

方法

先规定嵌套NER问题作为span分类任务。作者提取长度<=10所有的span。但这种方法有两根问题
1）长候选span难以识别
2）训练集出现频率少的实体，在测试集的频率密度大
作者使用连接实体和原始跨度的跨度级图来解决问题。

构建跨度级别图

基于n-gram特征构建基于检索的图。作者构建两种跨度级别图，entity-entity graph and span-entity graph。如果处理每个实体提及或原始跨度作为多个相邻标记的跨度，这两个图都对跨度之间的关系进行建模

entity-entity graph：
如果果两个实体提及之间存在共同的n-gram特征，那么它们之间就存在一条边。
span-entity graph：
如果一个片段与一个实体提及之间存在共同的n-gram特征，那么它们之间就存在一条边

Yuka12356

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Nested Named Entity Recognition with Span-level Graphs阅读笔记

作者构建两种跨度级别图，entity-entity graph and span-entity graph。如果处理每个实体提及或原始跨度作为多个相邻标记的跨度，这两个图都对跨度之间的关系进行建模。4、双仿射模型也被用于探索graph of original token sequence和the graph of tokens in recognized entities的关系。5、解决了嵌套NER超图结构的虚假结构和歧义问题。（Muis和Lu（2017）；作者使用连接实体和原始跨度的跨度级图来解决问题。
复制链接

扫一扫