论文阅读：EmbedRank: Unsupervised Keyphrase Extraction using Sentence Embeddings

最新推荐文章于 2022-11-07 10:21:12 发布

Shirveon

最新推荐文章于 2022-11-07 10:21:12 发布

阅读量3.1k

点赞数

分类专栏： keyphrase 论文笔记

本文链接：https://blog.csdn.net/u014435314/article/details/81223340

版权

本文介绍了一种名为EmbedRank的无监督关键词抽取方法，它利用Sentence Embeddings来表示文档和候选关键词，避免了复杂性和冗余问题。通过Sent2Vec对短语和文档进行嵌入，计算其语义距离，提高了信息性和多样性。相比于TextRank等传统方法，EmbedRank++进一步通过MMR增加关键短语的多样性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

问题：
现有的关键词抽取系统普遍存在的问题包括：1）complex and slow 2）over-generation (i.e. extracting redundant keyphrases)

资源：
1. 代码 https://github.com/swisscom/ai-research-keyphrase-extraction

相关工作：
1. Unsupervised Keyphrase Extraction
Graph-based: TextRank (Mihalcea and Tarau, 2004); SingleRank (Wan and Xiao, 2008); WordAttractionRank (Rui Wang, Wei Liu, 2015)
Others: KeyCluster (Liu et al., 2009); TopicRank (Bougouin et al., 2013)
与上述工作不同，本文提出的EmbedRank使用当前表现最好的语义文档嵌入方法将文档和候选关键短语表示成高维空间的向量，而不是简单地使用词向量的平均，因此可以计算出一个文档和候选短语间比较有意义的距离（提高informativeness）和候选短语之间的语义距离（提高diversity）
2. Word and Sentence Embeddings
Words: Word2Vec (Mikolov et al., 2013)
Sentences: Skip-Thought (Kiros et al., 2015)
Paragraph: Paragra