NER论文两篇

YingJingh

已于 2022-06-10 19:16:52 修改

阅读量1k

点赞数

分类专栏：论文记录文章标签： transformer 深度学习自然语言处理

于 2022-06-10 19:16:40 首次发布

本文链接：https://blog.csdn.net/Hekena/article/details/125226553

版权

论文记录专栏收录该内容

147 篇文章 9 订阅

订阅专栏

LightNER: A Lightweight Generative Framework with Prompt-guided Attention for Low-resource NER

论文核心

是围绕小样本下的NER学习任务展开的。建模为生成模型的任务，所以使用的PLM依旧是BART。
至于Light，我想，论文中是因为，参数调整的较少，故称之为“轻量级”NER

论文的创新点

建模了prompt级别的注意力机制，在Transformer内部，做了一点改动，其他方面，暂时没有看出来，欢迎补充
原始的transformer结构：
按照模型结构，可以分为：
纯 Encoder 模型：适用于只需要理解输入语义的任务，例如句子分类和命名实体识别，又被称为自编码 (auto-encoding) Transformer 模型，比如bert；
纯 Decoder 模型：适用于生成式任务，例如文本生成,又被称为自回归 (auto-regressive) Transformer 模型，比如GPT；
Encoder-Decoder 模型或 Seq2Seq 模型：适用于需要基于输入的生成式任务，例如翻译和摘要，又被称为 Seq2Seq (sequence-to-sequence) Transformer 模型，比如BART、T5。
参考：链接
在这里插入图片描述
transformer的构成是由：
编码器和解码器构成，其中，编码器是文本语义特征表示，解码器是output target sequence,它的组成上，是由残差连接、归一化、前向网络组成。

论文中的结构是：

可以观察到，在encoder和decoder之间，添加了以prompt作为注意力的模块，也就是在SEQ2SEQ的transformer模型中，采取了措施。至于论文中左侧的主体架构，我觉得是借鉴了另一篇论文《A Unified Generative Framework for Various NER Subtasks》（2021-ACL）

在这里插入图片描述

A Unified Generative Framework for Various NER Subtasks

论文核心是将所有的NER任务（flat，nest，discontinuous NER）建模为统一的任务形式，以一种统一的表示方式解决。这篇文章还是值得看的。也是利用生成模型BART解决问题的。

实体识别任务解决的方式：
（1）序列标注形式（flat entity）;超图形式（解决nested和不连续实体）---------它存在假结构问题，以及推理过程中的结构模糊问题，解码相当复杂。
（2）span 层级的分类 (一种是需要列举出所有的可能span，然后做分类，复杂度是指数级，一般为了简化，会对span的最大长度做一个限制；一种是表填充方式解决问题）
（3）词级别和span级别的组合

本文的模型：
文章中使用生成模型生成可能的span position index 和 label index.
在表示方式上，使用[1,n]表示的位置index，[n,n+l]表示的label index。（每一个label有一个对应的数字）
模型结构如下，具体计算过程，见文章吧

在这里插入图片描述
既然是生成模型，要生成实体的位置索引和标签索引，那么，实体位置索引的表示，可能会产生影响，文中，提出了三种表示方式。

span :The position index of the first BPE of the starting entity word and the last BPE of the ending entity word.
BPE :The position indexes of all BPEs of the entity words
Word :只有每个实体字的第一个BPE的位置索引被使用。Only the position index of the first
BPE of each entity word is used
其实，也可以猜想到实验结果，那就是word表示方式更适合于实体长度短的情况，span更适合于实体长度较长的情况

但有一点比较意外，作者做了实体出现位置（或者表示为实体位于一句话中的顺序）会对结果造成影响。这一点，之前没有人提到过。

我们想研究在目标序列中出现较晚的实体是否会比出现早的实体具有更差的召回率。结果如图 4 所示。实体出现的越晚，对于平面 NER 和不连续 NER 的召回概率越大。而对于嵌套的 NER，召回曲线相当复杂。我们假设这种现象是因为对于平坦的 NER 和不连续的 NER（超过 91.1% 的实体是连续的）数据集，不同实体之间的依赖性较小。而在嵌套的 NER 数据集中，后一个位置的实体可能是包含前一个实体的最外层实体。先前实体的错误预测可能会对后来的实体产生负面影响。
在这里插入图片描述

补充：
文中提到，但是，BART 的采用并非易事，因为 BART 中使用的字节对编码 (BPE) 标记化可能会将一个标记标记为多个 BPE。

BPE算法流程，这个应该在文本挖掘中学过

确定subword词表大小
统计每一个连续字节对的出现频率，并保存为code_file。
将单词拆分为字符序列并在末尾添加后缀“
”，而后按照code_file合并新的subword，首先合并频率出现最高的字节对。例如单词birthday，分割为[‘b’,
‘i’, ‘r’, ‘t’, ‘h’, ‘d’, ‘a’,
‘y’]，查code_file，发现’th’出现的最多，那么合并为[‘b’, ‘i’, ‘r’, ‘th’, ‘d’, ‘a’,
‘y’]，最后，字符序列合并为[‘birth’, ‘day’]。然后去除’',变为[‘birth’,
‘day’]，将这两个词添加到词表。这个是apply-bpe完成。
重复第3步直到达到第2步设定的subword词表大小或下一个最高频的字节对出现频率为1

YingJingh

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
NER论文两篇

是围绕小样本下的NER学习任务展开的。建模为生成模型的任务，所以使用的PLM依旧是BART。至于Light，我想，论文中是因为，参数调整的较少，故称之为“轻量级”NER建模了prompt级别的注意力机制，在Transformer内部，做了一点改动，其他方面，暂时没有看出来，欢迎补充原始的transformer结构：按照模型结构，可以分为：纯 Encoder 模型：适用于只需要理解输入语义的任务，例如句子分类和命名实体识别，又被称为自编码 (auto-encoding) Transformer 模型，
复制链接

扫一扫