关键词提取的方法:
1
TF-IDF
2
Topic-model:
使用主题模型提取关键词的关键思想是认为文章是由主题组成的,而文章中的词是以一定概率从主题中选取的,即文章与词之间存在一个主题集合。不同的主题下,词出现的概率分布是不同的。
根据LDA主题模型的学习可以获取文档的主题词集合。
3
RAKE关键词提取:
RAKE(Rapid Automatic Keyword Extraction)算法的原作者是Alyona Medelyan,RAKE的更新版本就是她完成的,muai indexer也是她的杰作,她的GitHub上有很多关键字提取的项目。