关键词提取–技术原理概览
文章目录
一、TF-IDF
TF > Term Frequency
-
TF = 某个词在文章中出现的次数
-
“词频”标准化-1
T F = 某 个 词 在 文 章 中 出 现 的 次 数 文 章 的 总 词 数 TF = \frac {某个词在文章中出现的次数}{文章的总词数} TF=文章的总词数某个词在文章中出现的次数
- “词频”标准化-2
T F = 某 个 词 在 文 章 中 出 现 的 次 数 M a x { 文 章 中 词 的 出 现 次 数 } TF = \frac {某个词在文章中出现的次数}{Max\{文章中词的出现次数\} } TF=Max{ 文章中词的出现次数}某个词在文章中出现的次数
IDF > Inverse Document Frequency
- IDF 逆文档频率
I D F = l o g ( 语 料 库 的 文 档 总 数 包 含 该 词 的 文 档 数 + 1 ) IDF = log( \frac{语料库的文档总数}{包含该词的文档数+1} ) IDF=log(包含该词的文档数