Raki的读paper小记：Leveraging Type Descriptions for Zero-shot Named Entity Recognition and Classification

最新推荐文章于 2024-11-10 10:07:03 发布

爱睡觉的Raki

最新推荐文章于 2024-11-10 10:07:03 发布

阅读量3.5k

点赞数

分类专栏： NLP 读paper 文章标签： transformer 深度学习机器学习自然语言处理人工智能

本文链接：https://blog.csdn.net/Raki_J/article/details/122953941

版权

读paper 同时被 2 个专栏收录

83 篇文章 5 订阅

订阅专栏

NLP

82 篇文章 10 订阅

订阅专栏

本文提出了一种针对零样本命名实体识别和分类（Zero-shot NERC）的新方法，采用交叉注意力Transformer架构，利用实体类别的文本描述。面对训练中未见过的实体类别，模型通过独立编码、基于描述的编码和类意识编码来建模负类。实验显示，该模型在OntoNotes和MedMentions数据集上的表现优于基线，强调了高质量实体描述的重要性。未来工作将探索实体之间的依赖关系建模。

摘要由CSDN通过智能技术生成

Abstract & Introduction & Related Work

研究任务
命名实体识别和分类
已有方法和相关工作
面临挑战
创新思路
1. 提出了第一种用于zero-shot的NERC的方法
2. 引入一个新的架构，利用许多实体类别的文本描述自然发生的事实
实验结论

在训练过程中被观察到的非实体的词有可能属于其中一个测试类别，基于这种观察我们提出几种不同的架构，基于交叉注意力在语句和类型描述之间用transformer，结合预训练模型

我们通过以下方式探索对负类的建模

使用对负类的描述
直接建立负类的模型
使用为对应于类型的类所产生的表征来建立负类的模型

Zero-shot NERC

对于每一个类型d，交叉注意力编码器生成一个向量表示v，对于每一个在语句s中的单词w
在这里插入图片描述
进行一个线性变换，o表示单词t有多大可能属于实体类c

为了能不仅仅是分类实体，并且识别它们，每一个token的得分跟属于负类的得分拼接起来，对应于不属于所考虑的任何类型：

选出一个得分最高的类
在这里插入图片描述

Cross-attention Encoder

用bert
在这里插入图片描述

Modelling the negative class

正如第1节所讨论的，非实体类创建了一个具有挑战性的设置。在训练期间观察到的非实体单词可能属于其中一个测试类。

Description-based encoding

在这里插入图片描述

然而，这种方法要求描述的东西不是而不是是。这使得在实践中很难就最合适的描述做出明智的决定。另外，非实体的标记很可能在训练和测试中有所不同，因此固定的描述不太可能表现良好

Independent encoding

负面类可以直接建模，因为它是在训练数据中观察到的。因此，在不考虑任何描述的情况下，每个标记在句子的上下文中被表示为否定类，而不是探索交叉注意力
在这里插入图片描述

Class-aware encoding

基于描述的编码和独立编码没有对以下事实进行建模，即在zero-shot的NERC中，并非每一个在训练期间被标记为非实体的实体在测试期间都是非实体。相反，我们建议通过结合交叉注意力编码器生成的其他类别的表征来为负类建模： $v_{t,c_0}, ..., v_{t,c_k}$ 。然后，每个向量被线性转换，使用 $w_{neg-cl}$ ，然后串联到一个特征图m
在这里插入图片描述

Training

为了防止注意力编码器在少量类别描述上过拟合，我们使用一个实体屏蔽形式的正则器，这种正则化避免了词汇记忆，并鼓励模型学习实体上下文与类别描述的亲缘关系，同时仍然学习纳入实体本身的各个方面（例如大写字母、形状、形态），并将它们与类型描述联系起来

因为负类标签不平衡，使用
在这里插入图片描述

Evaluation setup

在这里插入图片描述

Experiments

在这里插入图片描述

Conclusions & Future work

本文探讨了带有实体类型描述的零点拍摄NERC的任务，将知识从观察到的类转移到未见的类。我们通过提出一个多类架构来解决零点拍摄NERC的具体挑战，该架构使用类意识编码来为负面类建模，从而使非实体类的定义不明确。这些模型基于OntoNotes和MedMentions数据集的零次改编进行了评估。结果显示，所提出的模型优于强大的基线，并进一步表明高质量的实体描述（即注释指南）是将知识从观察到未见的类转移的有效途径。未来的工作将旨在纳入预测的标签之间的依赖关系