摘要:TF-IDF是一个简单而又十分实用的统计算法。
TF:词频,表示关键词w在文档Di中出现的频率
count(w)为在Di中出现的次数,|Di|为所有词数量,TF表示本文档中此词出现的频率
IDF:逆文档频率,反映关键词的普遍程度
N为所有文档总数,I(w,Di)表示文档Di是否含有关键词w,包含为1,不包含为0
当一个词文档中频率高且新鲜度高(即普遍度低),则TF-IDF高
TF-IDF兼顾词频与新鲜度,能过滤一些常见词,保留更多信息的重要词
count(w)为在Di中出现的次数,|Di|为所有词数量,TF表示本文档中此词出现的频率
N为所有文档总数,I(w,Di)表示文档Di是否含有关键词w,包含为1,不包含为0
当一个词文档中频率高且新鲜度高(即普遍度低),则TF-IDF高
TF-IDF兼顾词频与新鲜度,能过滤一些常见词,保留更多信息的重要词