ai命名实体识别模型_ACL2020 | TriggerNER：高效命名实体识别框架

最新推荐文章于 2025-04-16 21:40:47 发布

杯子没水

最新推荐文章于 2025-04-16 21:40:47 发布

阅读量425

点赞数

文章标签： ai命名实体识别模型

本文链接：https://blog.csdn.net/weixin_42429893/article/details/112310473

版权

本文由南加州大学和亚马逊联合发布，文章题目为《TriggerNER: Learning with Entity Triggers as Explanations for Named Entity Recognition 》，已经被ACL2020录用。文章针对命名实体识别中存在的需要大量耗时耗力的人工标注工作现状提出了方法TriggerNER，利用一种能够帮助人们找到实体的触发器entity trigger，通过Trigger Matching Network学习到相关触发器的信息以及触发器跟句子之间的匹配程度，从而更有利于标注。在实验上发现，使用20%的带有触发器的数据训练模型，其能力能够媲美使用70%原始数据训练的模型。

图1 论文信息

论文链接：

https://arxiv.org/pdf/2004.07493.pdfarxiv.org

要点概览

提出“entity trigger”的概念，这是命名实体识别问题的一种解释性注释的新颖形式。在两个流行的数据集上众包并公开发布了14k带注释的实体触发器：CoNLL03(通用域)，BC5CDR(生物医学域)。
提出一种新颖的学习框架，称为“Trigger Matching Network”，该框架对实体触发器进行编码，并柔化未标记的句子，以提高基础实体标记器的效率。
TMN使用原始CoNLL03数据集中20%的触发器注释语句达到了使用70%的注释语句训练传统模型的性能。

背景

当前序列标注的进步主要集中在使用大量人工标注数据训练得到的神经网络模型，然而，收集这样的人工标注数据不仅昂贵，而且耗时，尤其对社交媒体数据或者各种专业领域数据。文章提出一个概念实体触发器，entity trigger，指的是一组能够在一个完整句子帮助解释实体识别的词语。例如图2，“have…lunch at”跟“where the food”是跟把实体Rumble Fist识别为Restaurant相关联的两个实体触发器。

图2 实体触发器实例

方法

给定语料

中的一个句子

,对应的标签序列为

,其中

的值为

,则标注数据可以表示为

和非标注语料

。

对于句子中的人工标注的触发器,触发词的索引为

，实体的第一个词的索引是

，可以用

表示，

。例如图1中的触发器“had…lunch at”可以表示为

,通过增加触发器信息，之前的

就会转换成一种新形式

。

基于新的语料数据

，文章提出一种新的命名实体识别框架Trigger Matching Network，包括一个触发器编码器TrigEncoder，一个语义匹配模块TrigMatcher，一个基准的序列标注器SeqTagger。在这里框架里训练过程会分成两步，第一步是联合训练TrigEncoder和TrigMatcher，第二步是使用第一步的触发器信息去学习相应的命名实体识别模型。具体流程如图3所示。

图3 触发器匹配网络的两阶段训练

TrigEncoder

为了更佳高效的训练，文章把

进行了重构，使得每个句子都只包含一个实体和一个触发器，也就是

。对于每一个输入的

,首先经过一个双向LSTM，通过编码，每个词

都有一个对应的隐状态输出

,一个句子全部的隐状态输出表示为

，在将包含

的所有词的隐状态输出拼接在一起得到

。如下公式所示，

是整个句子的向量表示，

是整个触发器的向量表示，其中

跟

的参数都是通过模型训练得到的。

作者认为好的触发器的信息应该能帮助模型正确识别出实体的各种类型，为了衡量TrigEncoder的效果，文章设计了一个分类器，接受触发器的向量表示

作为输出，去预测实体

的具体类型。关于分类器的损失定义如下公式所示。

TrigMatcher

文章认为一个相似的触发器跟句子应有有相似的向量表示，所以同时设计了另一个TrigMatcher，用来学习去匹配触发器跟句子之间表示的程度，相应的对比损失函数如下公式所示。在训练时通过随机混淆触发器跟句子去生成负样本，然后利用正样本跟负样本一起训练这个TrigMatcher。

第一步的训练就是联合训练TrigEncoder和TrigMatcher，相应的损失函数就是

。

SeqTagger

当第一步训练完成后，会得到一个训练好的TrigEncoder和TrigMatcher，利用TrigEncoder编码得到的触发器向量的平均值作为

查询向量，可以生成一个新的关于句子表示的向量，如下公式所示。然后将初始的句子向量

跟新的句子向量

拼接到一起，作为新的句子表示，传入条件随机场CRF，进行相应的序列标注。

预测

当Trigger Matching Network训练完成后，在对没有触发器标注信息的句子进行预测时，会通过TrigMatcher，从所有的触发器词典中进行遍历，匹配到跟当前句子最相似的K个触发器。对这K个触发器的编码向量求平均后作为当前句子的触发器信息，从而使用Trigger Matching Network进行对应的命名实体识别，如图4所示。