Raki的读paper小记:Unified Named Entity Recognition as Word-Word Relation Classification

82 篇文章 10 订阅

Abstract & Introduction & Related Work

  • 研究任务
    • NER同一建模模型(flat,nested,discontinuous)
  • 已有方法和相关工作
    • 序列标注
    • 基于超图的方法
    • seq2seq方法
    • 基于span的方法
    • 现有方法focus如何准确识别实体边界
  • 面临挑战
    • 在推理过程中同时存在假结构和结构模糊的问题
    • 解码效率
    • 曝光偏差
    • 基于span的方法受限于最大span长度,模型复杂度
  • 创新思路
    • 提出了一种基于word-word关系分类的统一NER建模模型,称之为 W 2 N E R W^2NER W2NER
    • 该架构通过对实体词之间的相邻关系进行有效建模,用Next-Neighboring-Word(NNW)和Tail-Head-Word-(THW-)关系来解决统一NER的内核瓶颈问题
  • 实验结论
    • 在14个数据集上sota

嵌套NER和不连续NER的示意图,比flat更加的复杂
在这里插入图片描述
W 2 N E R W^2NER W2NER 模型总览图,可以看到整个模型是比较复杂的
在这里插入图片描述

NER as Word-Word Relation Classification

在所有token对中,存在以下三种关系
在这里插入图片描述
word-word矩阵,表示token对之间的关系,非对称,表示第行个token和第列个token之间的关系
在这里插入图片描述

Unified NER Framework

  • Encoder:用BERT和LSTM来从输入句子中得到上下文词表示
  • 卷积层:用来建立和精炼词对矩阵,用于后续的word-word关系分类
  • 最后一个双线性层和多层感知机共同用于推理token对的关系

Encoder Layer

BERT得到word embedding之后送入LSTM得到上下文表示,没什么好说的
在这里插入图片描述

Convolution Layer

CNN层有三个不同的模组
在这里插入图片描述

Conditional Layer Normalization

V i j \mathbf{V}_{ij} Vij 表示词对之间的的表示,使用条件层归一化来计算

γ \gamma γ λ \lambda λ 通过对隐状态投影得到
在这里插入图片描述

BERT-Style Grid Representation Build-Up

V \mathbf{V} V 代表词信息
E d \mathbf{E}^d Ed 代表token对的相对位置信息
E t \mathbf{E}^t Et 代表代表区域信息,用于区分矩阵中的下三角和上三角区域

最后拼接起来经过一个线性层

在这里插入图片描述

Multi-Granularity Dilated Convolution

C \mathbf{C} C 使用三个空洞卷积,并拼接起来得到 Q \mathbf{Q} Q
在这里插入图片描述

Co-Predictor Layer

在这里插入图片描述

Biaffine Predictor

利用了之前LSTM得到的上下文表示
在这里插入图片描述

MLP Predictor

把Q投影,再跟双线性层的输出一起输入softmax层进行得到每一类的概率
在这里插入图片描述

Decoding

我们模型的预测是单词和它们之间的关系,这可以被视为一个方向性的单词图。解码的目的是利用NNW关系找到图中从一个词到另一个词的某些路径。每条路径都对应于一个实体提及。除了用于NER的类型和边界识别,THW关系也可以作为消歧义的辅助信息。图4说明了四种从易到难的解码情况
在这里插入图片描述

  • (a)中,两条路径 "A→B "和 "D→E "对应于平面实体,THW关系表示它们的边界和类型
  • (b)中,如果没有THW关系,我们只能找到一条路径,因此 "BC "就不见了。相反,在THW关系的帮助下,我们很容易发现 "BC "被嵌套在 "ABC "中,这表明了THW关系的必要性
  • (c)显示了如何识别不连续的实体。可以找到两条路径 "A→B→C "和 “A→B→D”,而NNW关系有助于连接不连续的跨度 "AB "和 “D”
  • 考虑到一个复杂而罕见的情况(d),不可能解码出正确的实体 "ACD "和 “BCE”,因为在这个模糊的情况下,我们只用NNW关系就能找到4条路径。相反,只使用THW关系会识别出连续实体(如 “ABCD”),而不是正确的不连续实体(如 “ACD”)。因此,我们可以通过协作使用两种关系来获得正确的答案

Learning

优化以下损失函数
在这里插入图片描述

Experimental Results

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Conclusion

在本文中,我们提出了一个新的基于词-词关系分类的统一NER框架,以解决统一NER的并发问题。词对之间的关系被预先定义为下一个邻接词关系和尾部词头关系。我们发现,我们的框架对各种NER相当有效,在14个广泛使用的基准数据集上达到了SoTA的性能。此外,我们提出了一个新的骨干模型,包括一个BERT-BiLSTM编码器层,一个用于建立和完善词对网格表示的卷积层,以及一个用于联合推理关系的协同预测层。通过消融研究,我们发现我们的以卷积为中心的模型表现良好,几个提议的模块,如联合预测器和网格表示丰富化也很有效。我们的框架和模型易于操作,这将促进NER研究的发展

Remark

虽然模型有一点点复杂,组件比较多,但是效果牛逼,那只能说 好!

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值