论文笔记｜UniKeyphrase: A Unified Extraction and Generation Framework for Keyphrase Prediction

yanyc428

已于 2022-11-07 10:21:19 修改

阅读量439

点赞数

分类专栏：论文笔记文章标签：论文阅读人工智能自然语言处理深度学习

于 2022-11-07 10:21:12 首次发布

本文链接：https://blog.csdn.net/bonsor/article/details/127585616

版权

论文笔记专栏收录该内容

8 篇文章 0 订阅

订阅专栏

导读

这是一篇发表在ACL2021上的一篇文章，作者来自腾讯AI Lab和北京邮电大学。本文主要的研究问题是，在关键词预测任务中，将已现关键词的提取（Present Keyphrase Extraction, PKE）和未现关键词的生成(AKG, Absent Keyphrase Generation)相结合，完成更加全面的关键词预测任务。本文的主要的贡献在于（1）提出了一个端到端的结合PKE和AKG的模型；（2）提出了一个堆叠关系层（SRL）用于捕获PKE和AKG之间的关系；（3）提出了一种词袋约束，用于将已现关键词和未现关键词的全局信息输入模型。论文链接

一、研究背景

关键词预测（Keyphrase Prediction, KP）任务是指从文本中预测出几个能够概括文本大意的关键词。关键词预测任务可以用于许多NLP的下游任务，如检索、文本聚类、文本摘要等任务。目前，主流的KP方法可以分为两种，一种从文本中提取提取图额定的短语作为关键词（PKE），另一种生成文档中没有出现过的短语作为关键词。在过去上十年中，学者多在研究PKE的任务，但PKE无法处理未现关键词，有些时候未现的词语中也有能够准确改过文章大意的短语，这些词语被生成出来作为文本的关键词也是很有意义的。

近些年来，学者发现了PKE的局限性，开始研究起了生成式的方法。大多数的生成式方法都是使用seq2seq模型，基于拷贝机制去完成目标序列的标签预测，而目标序列是由已现词和未现词拼接而成的。

作者认为，未现关键词和已现关键词在关键词预测的任务上是有语义上的区别的，已现关键词多是描述特定的技术细节，而未现的关键词多用于描述论文的任务或者研究领域。而目前的生成式模型在对待这两类短语的时候并没有明确的区分。

基于以上的原因，也有学者将两个任务区分开来，分别构建PKE和AKG模型，最终将两个模型的预测结果综合起来，作为输出。这一类的研究有两个局限性：（1）这类方法不是使用端到端的模型，因此在pipeline中的各个模型的误差可能在整个pipeline上累积；（2）这类方法对于PKE和AKG之间的关系捕捉不够充分。

为了解决上述的问题，作者提出了一个端到端的集成模型，UniKeyphrase，其采用了统一的预训练模型，并对PKE和AKG分别作fine-tune。它能够明确地捕捉PKE和AKG之间的关系。PKE为AKG提供文本中的突出信息，而AKG为PKE提供文本全局的主题语义信息。

二、模型与方法

UniKeyphrase的模型结构主要可以分为三个部分：（1）基于UniLM的抽取器-生成器骨架；（2）堆叠关系层，用于显式地捕捉PKE和AKG之间的关系；（3）词袋约束，用于在训练时提供PKE和AKG的全局信息。下图给出了UniKeyphrase的模型架构。

2.1 抽取器-生成器骨架

本文的KP任务定义为，对于文档集合 $X=\{x_1,...,x_m\}$ ,，获取关键词集合 $K=\{k_1,...,k_{|K|}\}$ ，其中K可以被分为两个部分，即出现在文档中的关键词集合 $K_p=\{k_1^p,...,k_{|K_p|}^p\}$ ，和未出现在文档中的关键词集合 $K_a=\{k_1^a,...,k_{|K_a|}^a\}$ 。UniKeyphrase将KP的任务分解成PKE和AKG，并且使用集成的方法端到端的训练这两个任务。

UniKeyphrase将PKE视为一个序列标注任务，而将AKG视为文本生成任务。UniKeyphrase使用了UniLM作为预训练模型。UniLM也是基于Tranformer的预训练模型，被广泛用于端到端的自然语言处理任务中。本文使用的UniLM做了特定的约束，源文档的语义表示可以在左右两个方向传播，而目标序列的语义表示只能在一个方向上传播。换句话说，也就是PKE的语义信息能被AKG捕捉到，而PKE不会使用AKG的语义信息。

基于以上的思想，对于文档X，所有的未现关键词会被拼接成一个文本序列中。模型会随机的选择序列中的词语，并MASK掉一部分的词语，这个序列被记作 $K_a^m$ ，在输入UniLM前，模型将原文档序列和生成的未现关键词序列 $K_a^m$ 拼接起来，作为输入序列。

$I = \{[CLS] X [SEP]K_a^m[SEP]]\}$

此后将这个序列输入到UniLM中，得到序列的语义表示 $H$ ：

$H=UniLM(I)$

其中，可以分别得到各个词语的语义表示 $H=\{h1,...,h_T\}$ ，这些语义表示将被用在PKE和AKG中。

2.2 堆叠关系层（Stacked Relation Layer， SRL）

SRL的输入分为 $P^0$ 和 $A^0$ ，但两个输所使用的语义表示式一致的，即 $P^0=A^0=\{h_1,...,h_T\}$ ，最终的输出是 $P^L$ 和 $A^L$ ，其中L是SRL的层数。SRL能够重复地使用，从而获取一个更好地融合语义表示。

下面说明SRL是怎么运作的。例如，对于第 $l$ 层的SRL，其输入是 $P_l=\{p_1^l,...,p_T^l\}$ 和 $A_l=\{a_T^1,...,a_T^l\}$ ，首先SRL使用ReLU激活函数的线性的转换，使得输入与特定的任务更加相关：

$P^{{l}'} = LN(P^l + max(0, W^l_PP^l+b^l_P))$

$A^{{l}'} = LN(A^l + max(0, W^l_AA^l+b^l_A))$

其中LN表示层的标准化函数。

接下来，SRL会融合二者的语义表示，从而在不同任务中达到更好的表示。本文使用了互注意力网络来融合二者的表示。互注意力网络是在相关任务中对重要信息进行建模的有效方式。本文所使用的互注意力机制从token角度拓展到了task角度，可以让PKE和AKG中的语义表示关注到互相的信息，从而将重要的信息在二者之间传递。

$P^{l+1}=LN(P^l + softmax(P^{{l}'}({A}')^T)A^{{l}'})$

$A^{l+1}=LN(A^l + softmax(A^{{l}'}({P}')^T)P^{{l}'})$

其中 $P^{l+1}$ 和 $A^{l+1}$ 是经过第 $l$ 层SRL后更新的语义表示。

在获取了SRL的最终输入后，模型使用了不同的decoder来实现PKE和AKG，其输出为：

$y_i^p = softmax(W^pp_i^L+b^p)$

$y_j^a = softmax(W^aa_i^L+b^a)$

其中 $y_i^p$ 和 $y_j^a$ 是预测出的PK和AK的分布。

2.3 词袋约束（Bag-of-Words Constraint, BWC）

Unikeyphrase将KP任务分解成PKE和AKG，这两个任务是分别训练的，因此缺乏了一些；矮子总关键词集合的全局信息。这一类全局信息可以通过计算关键词的数量或计算PK和AK之间的常用词语来得到。本文使用词袋模型来描述这一全局信息。模型计算了预测出的关键词的词袋和真实的词袋之间的差距，并将这个差距纳入损失函数之中。因此UniKeyphrase在两个任务训练的时候可以获取来自己关键词分布的全局信息。

首先，从模型中获得PK和AK的词袋。对于PK，PKE是一个序列标注任务，只需要使用所有标记的关键词，就可以获取PK的词袋 $V^P$ ，对于词袋中的词语 $w$ ，其概率表示为：