关键词提取方法学习总结(TF-IDF、Topic-model、RAKE)

本文介绍了关键词提取的重要性和常见方法,包括TF-IDF、Topic-model及RAKE算法。TF-IDF通过词频和逆文档频率计算关键词概率;Topic-model假设文章由主题构成,通过LDA等模型获取主题词;RAKE算法则用于提取短语关键词,依据词的共现关系计算得分。
摘要由CSDN通过智能技术生成

关键词是一篇文档中表达的主要话题,处理文档或句子时,提取关键词是最重要的工作之一,这在NLP中也是一个十分有用的task。

常见的关键词提取方法有:TF-IDF关键词提取方法、Topic-model关键词提取方法和RAKE关键词提取。


TF-IDF:

使用TF-IDF提取关键词的方法十分好理解,TF衡量了一个词在文档中出现的频率,一个文档中多次出现的词总是有一定的特殊意义,但是并不是所有多次出现的词就都是有意义的,如果一个词在所有的文档中都多次出现,那么这个词就没有什么价值了。

TF-IDF就很好地衡量了这些因素:TF= (词在文档中出现的次数)/ (文章总词数),IDF= log(语料库中文档综述/(包含该词的文档数+1))

TF-IDF= TF* IDF

TF-IDF值越大,则这个词成为一个关键词的概率就越大。


Topic-model:

使用主题模型提取关键词的关键思想是认为文章是由主题组成的,而文章中的词是以一定概率从主题中选取的,即文章与词之间存在一个主题集合。不同的主题下,词出现的概率分布是不同的。

根据LDA主题模型的学习可以获取文档的主题词集合。


RAKE关键词提取:

RAKE(Rapid Automatic Keyword Extr

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值