EmbedRank论文解读

最新推荐文章于 2025-04-30 08:54:34 发布

Trouble..

最新推荐文章于 2025-04-30 08:54:34 发布

阅读量684

点赞数 1

分类专栏：关键词抽取文章标签：自然语言处理数据挖掘

本文链接：https://blog.csdn.net/qq_45041871/article/details/126830842

版权

关键词抽取专栏收录该内容

16 篇文章

订阅专栏

EmbedRank是一种基于句子嵌入的无监督关键词抽取方法，通过计算候选短语与文档嵌入的相似度进行排序。而EmbedRank++通过引入MMR算法，进一步确保抽取关键词的多样性，避免语义重复，提高用户体验。实验在Inspec、DUC2001和NUS数据集上展示了其效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

EmbedRank: Simple Unsupervised Keyphrase Extraction using Sentence Embeddings

EmbedRank筛选关键词是通过关键词句子的嵌入和完整文档的嵌入之间的距离获得的信息量；由候选短语本身之间的距离表示的多样性。**EmbedRank++**极大的保证了关键字的多样性，且不用F-Score来进行评估。

EmbedRank实现

（1）基于词性序列从文本中提取候选短语。更准确地说，我们只保留那些由零个或多个形容词组成的短语，后跟一个或多个子名词。

（2）使用句子嵌入来表示（嵌入）候选短语和文档本身在同一高维向量空间。（计算每个候选词向量、句子（段落）向量、文档向量）

（3）对候选短语进行排序，以选择输出关键短语。

细节：句子（段落）级向量作者使用的是Sent2Vec模型，文档级向量作者使用的是Doc2vec。相似度计算使用的是**Cosine Similarity（余弦相似度）**方法。

EmbedRank++实现

EmbedRank模型抽取的关键字可能存在语义重复，例如：“molecular equivalence numbers”和“molecular equivalence indices”是表示一样的意思的短语。这样的现象可能导致用户有不好的使用体验。所以在此基础上，作者开拓了候选关键词语义的多样性，使用MMR（Maximal Marginal Relevance）。

MMR算法实现可以参照参考文献[1]，广泛应用于信息检索和文本摘要领域。MMR的计算公式如下式（1）所示：
$\ S [ λ ⋅ S i m 1 ( D i , Q ) − ( 1 − λ ) m a x D i ∈ S S i m 2 ( D i , D j ) ] MMR:=\mathop{argmax}\limits_{D_i\in{R \backslash S}}[\lambda \cdot {Sim_1}(D_i,Q)-(1-\lambda)\mathop{max}\limits_{D_i\in{S}}{Sim_2}(D_i,D_j)]$
$R$ 代表所有的检索文档， $Q$ 为输入的查询关键词， $S$ 为最开始初始化的空集合（代表对于问题 $Q$ 得出的最优回答）， $D_i$ 和 $D_j$ 表示被检索的文档， $Sim_1$ 和 $Sim_2$ 表示相似度度量函数。当 $\lambda=1$ 时，MMR计算标准的相关性排序列表，而当 $\lambda=0$ 时，它计算 $R$ 文档中的最大多样性排序。

为了将其应用到关键词抽取中，作者将其改为公式2：
$\ K [ λ ⋅ c o s s i m ~ ( C i , d o c ) − ( 1 − λ ) m a x C i ∈ K c o s s i m ~ ( C i , C j ) ] MMR:=\mathop{argmax}\limits_{C_i\in{C\backslash K}}[\lambda \cdot \widetilde{cos_{sim}}(C_i,doc)-(1-\lambda)\mathop{max}\limits_{C_i\in{K}}\widetilde{cos_{sim}}(C_i,C_j)]$
其中 $C$ 表示候选关键词， $K$ 代表为抽取的关键词， $d oc$ 是全文的向量表示， $C_i$ 和 $C_j$ 分别表示关键词 $i$ 和 $j$ ， $\widetilde{cos_{sim}}$ 是余弦相似度的计算公式。

通过MMR算法，EmbedRank++相对于EmbedRank算法所得的结果会更加考虑到候选关键词的多样性，可能可以更加有效地改善用户的使用体验。

EmbedRank实验

数据集：Inspec、DUC2001、NUS。

在这里插入图片描述

图1 EmbedRank和EmbedRank++在某文档的实验效果图表1 各种模型在三种数据集上的实验结果

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YQTNs4XL-1663041973075)(D:\Python\project\weekly_work\2022-09-05_2022-09-11\imgs\image-20220910164510786.png)]$