笔记整理:陆星宇,东南大学硕士,研究方向为自然语言处理
链接:https://arxiv.org/abs/2208.14565
动机
命名实体识别(NER)是识别与命名实体相关的文本片段并将其分类到预定义的实体类型(如人物、位置等)的任务。作为信息提取系统中的基本组件,NER已被证明对各种下游任务如关系抽取、指代消解和细粒度观点挖掘有益。
以往的工作主要将NER作为序列标记或跨度分类来处理,存在许多局限性,例如难以用序列标注处理嵌套NER,基于跨度分类的学习和推理十分复杂,对监督数据中的噪声十分敏感。此外,现有的工作将所有非实体标记的跨度统一作为反例,当训练数据的标记不完整时,可能会引入假反例。
贡献
文章的主要贡献如下:
(1) 将NER视为一种表示学习问题,提出了一种用于命名实体识别的高效双编码器,并在通用和医疗领域的多个数据集上取得了SOTA结果。
(2) 引入了一种新的动态阈值损失,其学习针对候选实体的动态阈值以区分实体跨度和非实体跨度;
方法
1、模型结构
模型的总体架构如图1所示,实体类型编码器和文本编码器是同构且完全解耦的Transformer模型。在向量空间中,锚点(橙色标识)表示来自实体类型编码器的特殊标记[CLS]。通过对比学习,其最大化锚点与正标记(Jim)之间的相似性,并最小化锚点与负标记之间的相似性。虚线灰色圆圈(由锚点与文本编码器中的[CLS]之间的相似性限定)表示将实体标记与非实体标记分开的阈值。