​COLING2022 | PCBERT: 用于中文小样本NER任务的BERT模型

8ffa410663ddc7e7b1df7f7ab03b6ace.png

©作者 | 赵金旭

单位 | 北京邮电大学

研究方向 | 自然语言处理

来自 | PaperWeekly

16d7fc46bd548ec40ffb1d0b5181d73e.png

论文标题:

PCBERT: Parent and Child BERT for Chinese Few-shot NER

论文链接:

https://aclanthology.org/2022.coling-1.192.pdf

进NLP群—>加入NLP交流群

7a70b86a5f115f4e95788d5f43941e77.png

Abstract

在 few-shot 或 zero-shot 数据集上实现良好的性能一直是 NER 面临的长期挑战。在语义分布差异较大的情况下,传统的语义迁移方法会降低模型的性能,特别是在中文 few-shot NER 的情况下。

本文提出了一种基于 prompt 的 P-BERT 和 C-BERT 的中文 few-shot NER。本文在高资源数据集上训练标注模型,然后在低资源数据集上发现更多隐式标签,并且进一步设计了一种标签扩展策略来实现高资源数据集的标签传输。本文在微博和其他三个抽样中文 NER 数据集上评估了模型,实验结果证明了本文的方法在 few-shot 学习中的有效性。

本工作的贡献可以概括为以下几点:

1. 引入标签扩展策略,在 few-shot NER 中实现标签迁移学习,有效地提高了模型性能;

2. 我们提出了一个新的 PCBERT 模型,由 P-BERT 组件和 C-BERT 组件组成,以集成词汇特征和隐式标签特征;

3. 实验结果表明,该方法适用于汉语 few-shot NER 迁移学习,在 few-shot 学习上取得了良好的性能。

c75e3d82be78d55ca3fe77d558dbd3b1.png

方法

本文提出了一个由 P-BERT 和 C-BERT 组成的中文 few-shot NER 的两阶段模型 PCBERT,这两个组件都是用 BERT 实现的,PCBERT 的整体模型结构如下图所示。

5268dc185539745ed7715a0872c694a5.png

P-BERT 是一种基于 prompt 的模型,用于提取目标数据集中的隐式标签扩展特征。C-BERT 是受 LEBERT 启发的基于词汇表的模型,并进一步融合了每个词汇表的多标签特征。在第一阶段,P-BERT 对标签扩展数据集进行预训练。然后 P-BERT 在第二阶段被冻结,提供标签扩展功能以微调 C-BERT。结构和功能描述如下。

2.1 P-BERT

对于 P-BERT,每个输入 ,用 将输入转换为 。转换输入由以下部分组成:

outside_default.png

其中 的第一部分是原始输入 X,第二部分是由 计算的标签模板。每个标签模板遵循 “ Index is ” 的形式,其中索引槽 [] 表示 X 中的每个 token 位置,标签槽 是代表标签 Y 的中文单词。每个标签模板用逗号连接。在 prompt-tuning 期间,每个输入的标签槽将用 [MASK] 令牌及其任务目标进行掩码。任务目标定义损失函数是恢复屏蔽标签 token。损失函数可定义为交叉熵损失:

b75cce4fea82d952676fb40ce603991f.png

 是对应的预测 token。

2.2 C-BERT

e00acbb5e1a7127628838458c03e9166.png

在 few-shot NER 中,词汇信息对于促进模型理解 token 级语义信息至关重要。对于每个输入序列 X,本文按照之前的方法构造词汇树。如上图所示,token X 的词典集可以嵌入为 。此外,本文还为每个单词引入了一个标签集。通过采用在高资源数据集上预训练的 BERT 分类器模型来预测 top-k 标签嵌入。

LEBERT 的一个变体被设计为 C-BERT。C-BERT 的词嵌入是 P-BERT 及其词嵌入的和。我们在 C-BERT 的第一个编码器层之后提出了一个标签词典适配器 (LLA),以利用词典和相应的标签信息,如下图所示。

570ef87e662310b332c03a86889b88d5.jpeg

其中 H1 是第一个编码器层中原始输出隐藏状态的集合。在 LLA 中,输入包含来自第一编码器层的隐藏状态 H1;词典在每个标记位置设置 ωi,对应的 top-k 标签嵌入 L。

2e6b0dd9e8ff43a6706a37d0b92c8868.png

ff41db376a3d403aa1edc9df6a32aab7.png

▲ i代表第i个token,j代表扩展的第j个单词的标签

c786c7324bea32f9241f4ac226fb3e93.png

▲ k代表top-k的标签

通过上面三个公式将词汇表(ij)的特征与对应的标签集(k)融合,增强词汇表的表示性,多标签特征可以有效地缓解 P-BERT 的标签噪声。

4e816ac7143c6d548d14410fe2652ea1.png

▲ i代表第i个token,j代表扩展的第j个单词

下面三个公式将计算出的词典特征 直接注入到中来计算词典信息:

d47f3bd7b1a7919b6af944905474ca53.png

第一次信息融合是将 top-k 的预测标签信息融合,第二次信息融合是将扩展的词汇信息融合,所以只剩下对应的 token 信息。

最终将原始输出隐藏状态与词典信息融合:

c2250cb99904ada35e56661ddbe19289.png

2.3 Interactive Training

在调优过程中,PBERT 的主要功能是为 C-BERT 提供标签扩展特性,所以只截取 P-BERT 输出的标签模板部分。每个令牌的提示特征被计算为:

1d5beb6409246cb7c1048f37cea89a7a.png

我们使用双向 LSTM (BiLSTM) 模型来增强 C-BERT 输出的时序信息:

3f4007b0dbc4c78ff4f2f28743c8e964.png

为了进一步减轻潜在标签噪声的影响,又融合了 P 的特征:

28a1d3df259acb15d664daf6a2538602.png

最终模型的损失为负似然损失:

dab19cb06b8398329592eab9a3540144.png

108b3850c9da02991dcc546b834bb68c.png

实验

3.1 Datasets

8c5689d17a8da2b389efff386daf0e02.png

3.2 Overall Results

a4d8c39f3beffb89bf0b41cf0aa6ede9.png

3.3 Ablation Study

2769cf8c3ae57fd0bdde0b28e3d5f24a.png

▲ 去除P-BERT分量,去除标签扩展策略(LEA),将标签扩展数据集替换为高资源数据集来训练P-BERT (LEB)

标签扩展数据集是作者重新构建的一个数据集,由高资源数据集与多个数据集集成,高资源数据集涵盖了大量的数据和标签,能够准确地支持低资源数据集上的标签扩展。

b22f6cad3b637a69104a043875add1a6.png

总结

本文提出了一种用于中文 few-show NER 任务的 PCBERT,由 P-BERT 和 C-BERT 组成,其中 P-BERT 是一个基于提示符的模型,可以提供更丰富的语义信息,C-BERT 是一个基于词典的模型。实验结果表明,该算法有效地提高了中文 few-shot NER 任务的性能。


进NLP群—>加入NLP交流群

·

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值