SIFRank New Baseline for Unsupervised Keyphrase Extraction Based on Pre-Trained Language Model

最新推荐文章于 2024-06-24 09:48:08 发布

Trouble..

最新推荐文章于 2024-06-24 09:48:08 发布

阅读量572

点赞数 1

分类专栏：关键词抽取文章标签：语言模型自然语言处理机器学习数据挖掘

本文链接：https://blog.csdn.net/qq_45041871/article/details/127085753

版权

关键词抽取专栏收录该内容

16 篇文章

订阅专栏

SIFRank是一种基于预训练语言模型的无监督关键词抽取算法。它结合了SIF和ELMo，针对短文档实现了最佳性能，并通过位置偏置权重优化了长文档处理。相较于其他模型，SIFRank在多个基准数据集上取得了显著成果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

SIFRank: New Baseline for Unsupervised Keyphrase Extraction Based on Pre-Trained Language Model

SIFRank简介

在社交媒体上，面临着大量的知识和信息，一个有效的关键词抽取算法可以广泛地被应用的信息检索和自然语言处理中。传统的关键词抽取算法很难使用外部的知识信息。在此基础上作者提出了一种新的基于预训练语言模型的无监督关键词提取基线SIFRank。SIFRank结合了句子嵌入模型SIF和自回归预训练语言模型ELMo，在短文档的关键短语提取方面具有最佳性能。我们通过文档分割和上下文单词嵌入对齐来提高SIFRank的速度，同时保持其准确性。对于长文档，我们通过位置偏移权重将SIFRank升级为SIFRank+，大大提高了它在长文档上的性能。与其他baseline相比，我们的模型在三个广泛使用的数据集上达到了最先进的水平。

Although graph-based models are effective, the effect of keyphrase extraction can be improved better by introducing external knowledge or additional features.（尽管基于图的关键词抽取模型是非常有效的，但是它能较好地被外部知识和额外的特征所提升。）

使用预训练语言模型有利于提升基于图的和基于统计的关键词抽取算法。

作者在论文的主要贡献：

提出了一种句子级嵌入的模型SIF，去解释句子嵌入和文档主题的之间的关系。使用SIF和ELMo预训练语言模型去计算句子级嵌入和文档级嵌入。然后使用余弦相似度进行计算候选短语和文档主题的距离。SIFRank可以动态实时地在不同领域进行优化，相对于EmbadRank效果更佳。（其实也就是对EmbedRank的改进算法）
提出了一种文档分割的方法，可以快速对长文档的字嵌入进行计算。然而，由于文档被分割成较小的部分，关键字提取的效果将降低。作者将同一单词在不同位置和上下文中的上下文嵌入的平均值作为嵌入锚，然后用嵌入锚替换上下文单词嵌入来计算结果，模型的性能明显反弹。（也就是求一个embedding来代替整句的embedding）
为了去提升模型在长文档的关键词抽取能力，作者提出了一种基于位置偏置权重。使用词第一次出现的倒数作为位置偏置权重，使用交叉熵对其进行平滑。通过添加了位置偏置，SIFRank算法在DUC2001上表现更佳。

SIFRank方法

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-B4nYzM6K-1664334393152)(D:\Python\project\weekly_work\2022-09-26_2022-10-02\imgs\image-20220927110616924.png)]$

图1 SIFRank模型实现流程

总结来说，SIFRank算法可以被分成以下步骤：

对文档进行序列标注，标注出文档各个字的词性。
抽取出名词短语。这些短语将被作为候选词短语。
将tokens序列放到预训练语言模型中去，去抽取每一个token的表示。在这种情况下，这个表示可能具有不同特征的多层字嵌入。说白了就是得到每个单词的词向量表示。
通过句子嵌入模型，将名词和文档分别转化为名词嵌入和文档嵌入的形式，这个是时候它们的维度相同。
使用余弦相似度来计算两个名词短语嵌入和文档嵌入的距离，这个距离是用来计算候选短语和主体之间的距离。最终按照排名来得到TOP-N个候选词。

$Pr[s|c_d]=\Pi_{w \in s} Pr(w|c_d)=\Pi_{w \in s}[\alpha f_w+(1-\alpha)\frac{exp(<v_w,\widetilde {c_d} >)}{Z_{\widetilde c_d}}]$

其中 $s$ 代表句子， $c_d$ 代表主题， $Z_{\widetilde c_d}=\sum_{w \in V} exp(<\widetilde c_d, v_w>)$ 和 $\widetilde c_d=\beta c_0+(1-\beta)c_d$ ，其中 $c_0 \bot c_d$ ， $f_w$ 是一个字出现在大预料的统计概率。
$v_s=\frac{1}{|S|}\sum_{w \in s} \frac{a}{a+f_w}=\frac{1}{|S|}\sum_{w \in s}Weight(w)v_w$
其中 $a$ 的取值范围在[1e-3,1e-4]。
$SIFRank(v_{NP_i},v_d)=Sim(v_{NP_i},v_d)=cos(v_{NP_i},v_d)=\frac{\vec v_{NP_i},\vec v_d}{\parallel \vec v_{NP_i} \parallel \parallel \vec v_d \parallel}$
其中 $d$ 代表文档， $v_d$ 代表文档的嵌入。 $v_{NP}$ 候选关键词NP的嵌入。

对于不同领域的，词的概率分布可能不一样。为了去适应不同领域，我们更改了字在不同句子权重计算方式：
$Weight(w)=\lambda Weight_{com}(w)+(1-\lambda)Weight_{dom}(w)=\lambda \frac{a}{a+f_w}+(1-\lambda)\frac{a'}{a'+f_w'}$

SIFRank实验结果

表1 各种关键词抽取模型在不同数据集上的表现

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5dqxgitX-1664334393154)(D:\Python\project\weekly_work\2022-09-26_2022-10-02\imgs\image-20220928103925281.png)]$

表2 不同于训练模型的在关键字抽取任务的效果

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-LUqZtfED-1664334393155)(D:\Python\project\weekly_work\2022-09-26_2022-10-02\imgs\image-20220928104541591.png)]$