【NLP】Label prompt for multi-label text classification论文阅读笔记

最新推荐文章于 2024-09-07 21:01:55 发布

卷心菜小温

最新推荐文章于 2024-09-07 21:01:55 发布

阅读量1k

点赞数 20

文章标签：自然语言处理人工智能论文阅读

本文链接：https://blog.csdn.net/nghhfgh/article/details/135385877

版权

文章提出了一种LP-MTC模型，通过在预训练语言模型中整合标签信息并利用掩码语言模型，捕捉标签间的相关性和文本语义，有效提高多标签文本分类任务的性能。实验结果表明，这种方法在处理复杂标签空间时尤其有效。

摘要由CSDN通过智能技术生成

0.前言

写于来XXXX公司实习的最后一个月，预祝自己实习顺利结束~

Paper address:

Label prompt for multi-label text classification | Applied Intelligence

( Applied Intelligence 2023)

摘要

在多标签分类任务中，在复杂且未知的标签空间中直接对标签之间的相关性进行建模是相当具有挑战性的。所以文章提出了一个标签提示多标签文本分类模型（LP-MTC）。具体来说，文章作者设计了一组用于多标签文本分类的模板，将标签集成到预先训练的语言模型的输入中，并通过掩蔽语言模型（MLM）进行联合优化。通过这种方式，可以在self-attention的帮助下捕捉标签之间的相关性以及标签与文本之间的语义信息，从而有效地提高模型性能。

1.介绍

文本分类任务是NLP领域极为重要的一种任务，其中有一种情况是大量的样本被分配给多个标签，我们称此为多标签文本分类(MTC)。

但在实际应用中，由于文档的冗长和复杂，语义信息可能被隐藏在嘈杂或冗余的内容中。此外，标记之间可能存在一些语言相关性，并且不同的标记可能共享文档的一个子集。

为了解决这些问题，对MTC的研究视角可以分为以下三类：

1.如何从原始文档中充分捕获语义模式。

2.如何从每个文档中提取与相应标签相关的区别信息。

3.如何准确地挖掘标签之间的相关性。

过往方法：一些深度学习方法，如CNN 和注意机制，可以有效地对文档进行建模，将多标签文本分类任务转换为几个二值分类任务，但却忽略标签之间的关系；一些方法利用标签结构和内容来捕获标签之间的相关性；一些研究将MTC转化为标签生成模型，以检索多标签的潜在空间；一些方法通过学习标签的表示来得到一个更一般化的分类模型；还有一些方法可以通过显式建模训练集中标签之间的关联来预测测试集的标签。然而，当标签文本之间没有太大的差异或缺乏标签文本时，这些模型可能会在分类上失败。此外，在一个未知和复杂的标签空间中建模标签的关联可能是非常具有挑战性的。
大规模的预训练语言模型的出现，如BERT和GPT-3 ，使得自然语言处理领域的知识转移更加容易。最近的一些研究表明，为预先训练过的语言模型编写提示可以更好地释放模型的优势，并实现进一步的改进。在提示学习中，任务被形式化为等效的封闭式任务，语言模型用于处理相应的封闭式任务，而不是原始任务。

因此，本文的作者受基于大规模预训练语言模型的提示学习方法的启发，提出了一种标签提示多标签文本分类模型（LP-MTC），通过使用语言模型学习的提示模板中的语义信息来学习标签与文本之间的关系。

2.相关工作

相关工作主要介绍了多标签分类与提示学习的内容，这里不再赘述。

3.准备工作

这里简单介绍了一下如何对数据添加提示模板并结合MLM进行预测，给读者一个大致的理解。

输入文本：x = {w1，w2，…，wm}

文本标签：y = {y1，y2，…，yL}

MTC任务的目标是学习一个映射函数：χ：x→y：{0,1}L

1.为不同的任务构建提示模板。以一个电影情感二分法句子为例，如下图所示，“The movie was so touching！”，提示学习通常会生成一个新句子，通过添加前缀模板输入：“The movie was so touching！I [Mask] it！”。[Mask]可以是“love”或“hate”，分别表示积极或消极的情绪。带有前缀模板的新输入可以表示为：x' = T||x，||代表连接。

2.在训练过程中，提示学习通常与语言模型相结合来预测掩码标记信息。给定一个带有词汇表V的语言模型M和带有掩码的新输入x'，提示学习的目标是预测掩码token的概率P。要预测的标记通常反映了句子的分类。

3.将搜索到的答案映射到标签空间。一般来说，预测的标记与实际的类别不同，因此需要通过映射的方法将特定的标记分配给相应的类别。例如，在下图中，love被映射为一个积极的类别，hate被映射为一个消极的类别。通过这种方式，即时学习可以将二元情绪分类任务转换为封闭式的任务。

4.方法

整体的模型架构如下图所示。首先，我们需要设计一套提示模板，可以用于多个标签任务，以便在输入中显示标签信息。在此之后，我们需要使用语言模型在模板中学习[Mask]标记。然后，我们还通过随机掩蔽原始输入的标记来构建一个多任务框架，并使用MLM来预测掩蔽标记。

4.1提示模板

对于每个标签，有三个值：Y, N,MASK，分别表示是、否、MASK。

同时，对于每个标签还显式地赋予了位置编码，即给这个标签的前后分别加上token：start、end。举个栗子🌰：该样本的标签为[1, 0, MASK]，那么最终会拼接上的模板为：

4.2对语言模型的提示学习

生成模板后，将其视为原始句子的前缀，并将原始文本一起输入到预训练模型中。训练过程有两个主要目标：预测标签空间中多个标签的概率分布，以及预测MLM的掩码。以15%的概率屏蔽提示模板中的中心标记（只有Y或N可以屏蔽）。此外，以相同的概率随机屏蔽了原句中的标记。接下来，我们将标签预测与语言模型的MLM任务相结合。（在此，我的理解是：我们又重新预训练了一个新的模型出来，在这个模型的预训练任务中，不仅有BERT原始对于文本的MLM任务，现在还加入了对于文本标签的MLM，使得模型捕获到了标签与其上下文之间的相关性。最后，利用我们训练好的预训练模型对标签空间中的多个标签进行概率分布预测。仅为本人个人理解哈~）

4.3训练与推理

正向传播

前向传播模板生成后，我们将其视为原始句子的前缀，并输入x’到预训练模型中。训练过程有两个主要目标：基于提示模板预测标签分布，以及预测原始句子和模板的掩蔽标记。

标签预测：

预测原始句子和模板的掩蔽标记：

联合损失

使用二进制交叉熵（BCE）作为MTC的损失函数，使用交叉熵作为MLM的损失函数。BCE损失如下：

最后的联合损失：

推理

在推断时，在模板中所有的标签都被覆盖为掩码，并计算所有掩码标签的概率。与训练不同，此时不需要执行MLM任务，因为提示模板中的token可以很容易地预测标签分布。最后将标签的输出用Sigmoid函数进行概率归一化。最后，所有大于0.5的概率值被预测为正标签，否则为负标签。模型推理过程下图所示。

5.实验

5.1数据集

数据集使用了AAPD、Reuters、Emotion、Toxic Comments，都是一些多分类的文本数据集，这里便不再赘述。

5.2评价指标

评价指标都是常用的召回率，F1分数，精确度，汉明损失，这里也不再赘述。

5.3Baselines

        CNN：利用卷积神经网络提取文本特征，输出标签在标签空间中的分布。
        BiLSTM-Attention：在最后一层采用自注意的第2层LSTM神经网络得到文档表示，并通过逻辑回归对每个标签进行预测。
        SGM：将MTC视为一个序列生成问题，并应用一个具有新的解码器结构的序列生成模型来解决它。
        BERT：基于自我注意的预训练语言模型。对不同的下游任务进行了不同的微调。
        BERT+MLM：在基本的BERT分类上，还添加了额外的MLM任务。
        Label-Wise (LW) LSTM with PT and FT：通过预训练模型获得了具有标签感知信息的文档表示，并对不同的下游任务进行了细化。PT为训练前的方法，FT表示对下游任务的微调方法。
        LP：论文方法但没有额外的MLM任务。
        LP-MLM：论文方法与额外的MLM任务。

5.4总体结果

1.通过将基于LP的方法（LP和LP-MLM）与不使用提示模板的方法（BERT和BERT-MLM）进行比较，确认了第一点。我们发现，在大多数情况下，LP有显著的性能提高，这表明将MTC转化为提示学习任务可以促进分类效果。提示模板可以被视为语言模型的特殊输入，因此语言模型可以学习模板中包含的标签信息。当我们将标签和原句子一起输入到BERT中时，这相当于为标签构建相应的上下文，而自我注意可以敏感地捕捉到原句子中不存在的上下文关系。用这种方式，我们引入标签之间的关联，可以提高模型理解标签上下文的能力。

2.对于第二点，我们也注意到，添加MLM可以进一步提高LP和BERT的性能，这说明了联合训练的有效性。我们从Bert的本质来解释这一现象。由于BERT本质上是一个MLM，允许BERT继续学习不同下游任务的掩码令牌，可以使模型更适合于下游任务，从而进行更好的分类。

3.此外，我们还注意到，对于不同的数据集，LP-MLM与BERT-MLM相比的改进也不同。对于大标签空间的AAPD、Reuters和Emotion，LP-MLM分别提高了1.47%、3.64%和2.97%，而对于只有6个标签的Toxic，提高了1.04%。这表明，通过引入标签之间的相关性所带来的改进可能是与标签空间的大小有关。

4.另外，模型的性能也与数据集的特殊性有关。例如，所有模型的micro-F1值通常很低，情感是一个细粒度的情绪数据集，很难区分。

6.分析

6.1注意力可视化

作者选择了AAPD、Reuters、Toxic Comments的测试集中相关性(斯皮尔曼相关系数)较高的前11个标签。然后，以不同BERT层的注意输出参数作为可视化的输入。平均所有的注意力头，并在所有的标签对之间选择注意分数。我们将所有批次相加，得到测试集上的全局得分矩阵，并对其进行归一化。我们选择第二层、第六层和最后一层的注意矩阵进行可视化。

从可视化结果中，我们发现浅层的BERT学习了一些粗略的信息，比如标签与自身的相关性。(图5b)，但是相关性可能是很弱的，并且经常捕获不相关的标签。(图6b和图7b)，第6层更注重局部相关性，闭合标签0和1之间的相关性得到了很好的捕获，如图5c所示。然而，我们也发现，一些没有相关性的局部标签被错误地分配为高相关性，如图6c中的标签2和标签4。
最后一层的注意力更接近于原始的标签相关性分布。与第6层相比，它不仅可以学习AAPD的标签0和标签1之间的关系，还可以学习更遥远的标签对之间的相关性，如图5d的标签2和标签4。对Toxic和 Reuters也进行了类似的观察。校正了第6层的误差相关性，并正确地捕获了标签1和标签2之间的高相关性。这表明，深度BERT可以捕获标签之间的相关性，这也为LP-MTC的优势提供了一个有效的解释。