一种全新易用的基于Word-Word关系的NER统一模型,刷新了14种数据集并达到新SoTA...

每天给你送来NLP技术干货!


4d9aa3c7f0152cfa0d37c4b6d82a4c3a.png

论文:Unified Named Entity Recognition as Word-Word Relation Classification

链接:https://arxiv.org/pdf/2112.10070.pdf

收录:AAAI2022

总体说一下

NER任务大概分为三种:flat, overlapped, and discontinuous NER,如下图所示:

  • aching in legs 为flat NER

  • aching in shoulders为discontinuous NER

  • aching in legs和aching in shoulders这两个实体共同重复了aching in,为overlapped NER

bc9e2395f0e6a8e4a41e69424df86614.png

最近的研究都在考虑如何通过一个大一统模型一次性解决这三种问题。目前的最佳的方法基本都是基于span-based和seq2seq的,然而span-based方法主要倾向于通过枚举所有span组合来解决边界问题,时间复杂度上是个问题;而后者大家都知道,存在错误传播。

所以,本文提出了一种新颖的方式和框架来解决所有的NER问题:通过预测word-word之间的关系(这里称之为W2NER)。其中word与word之间的关系主要有三种:

  • NNW: Next-Neighboring-Word,预测与后面词的关系

  • THW-*: Tail-Head-Word-* ,预测与前面词的关系,其中*表示具体关系(ORG、PER等)

  • NONE:表示没有关系

其中,本文采用一个多粒度2D图来表示word之间的关系,如下图,其中为了解决图的稀疏性,而将这两种关系放到一个图里,一个在右上角,一个在左下角。

a094f2014ed6fac20f0b5cc595b641f6.png

最终在14个公开数据集(包含中文和英文)上做了大量实验,并都取得了最佳值,也成为了最新的SoTA

模型

3bfb9ea7d86fd2c66449322ce10a219d.png

一下子看,感觉模型想是一堆模块堆积而成,其实细读论文会发现这些模型都是由NER的前人经验而来,有理有据。

具体来看,大概分为三个模块:

Encoder Layer

通过BERT获取表示信息,然后通过LSTM获取上下文信息。

Convolution Layer

这里有一个CLN(Conditional Layer Normalization)层,主要用来获得word j在word i前提下的表示:

45e5cc5d020f5f3a78c7d4f0a180946f.png

fa956d270b6f85ac46f05126397d8904.png

4c22e4bc2476083d654d3afb6c997d55.png

69ff38ac2a933673528acb86d70ee2a3.png

然后是BERT-Style Grid Representation层,这里主要是模型BERT的3个embedding层而来,这里的三个表示层为信息表示、关系位置信息表示和位置域表示组成,通过MLP融合到一起。

然后通过多粒度的空洞卷积(Multi-Granularity Dilated Convolution)采样不同的信息。

Co-Predictor Layer

这里用了一个普通的MLP和一个专门用于变长标签预测的biaffine预测:

d2386102b4c8e49982af6fd5e0f5585a.png

ef689bb746892e14dc0cda493e59141e.png

最后过一个softmax层:

ea441f94ddc4af4a54711b84e8fe78c8.png

最后是一个Decoder层,这里主要就是通过NNW和HTW-*构成一个环的部分就是一个实体,比如下面这个例子就解释了所有情况:

e8e4298503367c981254d54e915f6719.png

损失的话,就简单了:

c106eb979337238d914b13146744f177.png

实验

英文flat数据集:

dbff3550b7511375783d6114bd316a32.png

中文flat数据集:

83ae8d3b7873fa0bf521cb4eefdaab5e.png

英文overlapped数据集:

94263bb1b5b92ad876086cadf0fcf72b.png

中文overlapped数据集,F1性能:

a90d91486e11f9edb668c776d5cc3fb5.png

英文discontinuous数据集:

b73131026b7ad7f1f170a3372e2eb34e.png

和前沿最佳论文作对比:

55265df9d508c22c19df380ef2195685.png

消融实验,F1性能:

9d7848041cbdc63f9f8a8dadcd5d18c4.png

训练速度和推理速度都得到了极大提升:

ec550bd80999396f736008099255453d.png

这篇文章还是非常不错的,是一个简单有效的NER新框架,可以较为轻松的应用于线下。


下载一:中文版!学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套!  后台回复【五件套】
下载二:南大模式识别PPT  后台回复【南大模式识别】

投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

78087526cbb35a1e127614da614fa41f.png

记得备注呦

整理不易,还望给个在看!
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值