论文阅读:EmbedRank: Unsupervised Keyphrase Extraction using Sentence Embeddings

本文介绍了一种名为EmbedRank的无监督关键词抽取方法,它利用Sentence Embeddings来表示文档和候选关键词,避免了复杂性和冗余问题。通过Sent2Vec对短语和文档进行嵌入,计算其语义距离,提高了信息性和多样性。相比于TextRank等传统方法,EmbedRank++进一步通过MMR增加关键短语的多样性。
摘要由CSDN通过智能技术生成

问题:
现有的关键词抽取系统普遍存在的问题包括:1)complex and slow 2)over-generation (i.e. extracting redundant keyphrases)

资源:
1. 代码 https://github.com/swisscom/ai-research-keyphrase-extraction

相关工作:
1. Unsupervised Keyphrase Extraction
Graph-based: TextRank (Mihalcea and Tarau, 2004); SingleRank (Wan and Xiao, 2008); WordAttractionRank (Rui Wang, Wei Liu, 2015)
Others: KeyCluster (Liu et al., 2009); TopicRank (Bougouin et al., 2013)
与上述工作不同,本文提出的EmbedRank使用当前表现最好的语义文档嵌入方法将文档和候选关键短语表示成高维空间的向量,而不是简单地使用词向量的平均,因此可以计算出一个文档和候选短语间比较有意义的距离(提高informativeness)和候选短语之间的语义距离(提高diversity)
2. Word and Sentence Embeddings
Words: Word2Vec (Mikolov et al., 2013)
Sentences: Skip-Thought (Kiros et al., 2015)
Paragraph: Paragra

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值