TF-IDF
用于提取关键词,那么如何从多个文档中提取出关键词。文章的关键词可能有什么规律,表示文章主要意思,那这个词应该在该文章中出现多次,但是在其他文章中出现次数不多。
TF 词频 (Term Frequency)表示w在文档Di中出现的频率
T F = c o u n t ( w ) D i TF = \frac {count(w)}{Di} TF=Dicount(w)
IDF 逆文档频率(Inverse Document Frequency)
N是总的文档数量,I表示文档Di是否保存,如果w在所有的文档中都没有出现那就为0
I D F = l o g ( N 1 + ∑ i = 1 N I