Unified Named Entity Recognition as Word-Word Relation Classification

本文提出了一种新的统一命名实体识别(NER)框架——W2NER,通过词-词关系分类解决扁平、重叠和不连续的NER问题。W2NER模型包括BERT-BiLSTM编码层、卷积层和联合预测层,有效捕获词对间的交互,实现SoTA性能。
摘要由CSDN通过智能技术生成

Unified Named Entity Recognition as Word-Word Relation Classification

Reference

原论文 :https://arxiv.org/pdf/2112.10070.pdf
作者代码 :https://github.com/ljynlp/W2NER
知乎:https://zhuanlan.zhihu.com/p/481220074
知乎:https://zhuanlan.zhihu.com/p/462853984

一、 NER任务类型

命名实体识别(NER)(也称为实体识别、实体分块和实体提取)是信息提取的一个子任务,旨在将文本中的命名实体定位并分类为预先定义的类别,如人员、组织、位置、时间表达式、数量、货币值、百分比等。

在命名实体识别的任务中,我们命名实体识别的关系分为:

  1. Flat(扁平)
  2. overlapped,(嵌套)
  3. discontinuous(不连续)

在下图1中,aching In legs 为我们展示的扁平(flat)的实体识别。Aching in shoulders 和 aching In legs 同用一个谓语动词结构,仅仅为宾语不同,这样的结构为不连续(discontinuous)的命名实体识别。那么最后一种嵌套式的命名实体识别极为Shoulders和legs共用一个Aching in 的结构,所以Aching in shoulders 和 aching In legs 构成一个嵌套式的命名实体识别任务。在这里插入图片描述

NHW/THW-S介绍:

  1. NNW:下一个相邻词。
  2. THW-:头尾token,头尾产生联系,并且和类型关联。

二、 NER方法

如何通过一个大一统模型一次性解决这三种问题。目前的最佳的方法基本都是基于span-based和seq2seq的,然而span-based方法主要倾向于通过枚举所有span组合来解决边界问题,时间复杂度上是个问题;而后者大家都知道,存在错误传播。命名实体识别(NER)主要涉及三种类型,包括扁平、重叠(又称嵌套)和不连续的NER,这些类型大多是单独研究的。最近,人们对统一NER越来越感兴趣,用一个模型同时处理上述三个工作。目前表现最好的方法主要包括基于跨度的模型和序列到序列的模型,不幸的是前者只关注边界识别,而后者可能会受到曝光偏差的影响。在这项工作中,提出了一种新的替代方法,通过将统一的NER建模为词-词关系分类,即W2NER。该体系结构通过有效地建模实体词与下一个相邻词(NNW)和尾部词-(THW-)关系之间的相邻关系,解决了统一NER的核心瓶颈。基于W2NER方案,我们开发了一个神经框架,其中统一的NER被建模为二维单词对网格。然后,我们提出多粒度二维卷积来更好地细化网格表示。

三、 研究现状介绍

NER的方法可以粗略地分为四个主要类别

  • 序列标记
    1. 大部分的初始工作将NER形式化为一个序列标签问题(Lample等人,201 6;Zheng等人,2019;Tang等人,2018;Strakova´等人,2019),给每个标记分配一个标签。
  • 基于超图的方法
    1. 基于超图的模型被提出(Lu和Roth 2015;Wang和Lu 2018;Katiyar和Cardie 2018)来代表所有的实体跨度,然而在inference过程中,这些模型同时存在虚假结构和结构模糊的问题
  • 序列到序列的方法
    1. an等人(2021)提出了一个序列到序列(Seq2Seq)的模型来直接生成各种实体,不幸的是,它可能会受到去编码效率问题和Seq2Seq架构的某些常见缺陷的影响,例如,暴露偏差。
  • 基于跨度的方法
    1. 另一种用于统一NER的最先进(SoTA)方法,列举了所有可能的跨度并进行跨度级分类。然而,基于跨度的模型可能受到最大跨度的限制,并且由于枚举的性质,导致了相当大的模型复
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值