关键词提取
作者:杨夕
github : https:// github.com/km1994/text_ feature_extraction
常用的关键词提取方法介绍
- 方法类别介绍
- TF-IDF关键词提取算法
- TextRank关键词提取算法
- LDA主题模型关键词提取算法
- 互信息关键词提取算法
- 卡方检验关键词提取算法
- 基于树模型的关键词提取算法
TF-IDF关键词提取算法
理论基础
介绍
- 类型:一种统计方法
- 作用:用以评估句子中的某一个词(字)对于整个文档的重要程度;
- 重要程度的评估:
- 对于 句子中的某一个词(字)随着其在整个句子中的出现次数的增加,其重要性也随着增加;(正比关系)【体现词在句子中频繁性】
- 对于 句子中的某一个词(字)随着其在整个文档中的出现频率的增加,其重要性也随着减少;(反比关系)【体现词在文档中的唯一性】
- 重要思想:
- 如果某个单词在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类;
计算公式
- 词频 (Term Frequency,TF)
- 介绍:体现 词 在 句子 中出现的频率;
- 问题&#