一:TF-IDF基本意思
TF-IDF --->term frequency - inverse document frequency (词频--逆向文件频率)
TF:term frequency :这个单词在这篇文章中出现的概率
IDF:inverse document frequency 倒排文件频率:包含该单词的文档总数
TF*IDF 的大小 ----》作为该单词区分类别能力的大小
二:TF-IDF的弊端
文档d属于D类,d中的一个单词在D类频繁的出现从一定程度上反映这个单词能够代表能够描述这一类文章,能够很好的区分不同类型的文章。
但是按照TF-IDF,这个单词的作为区分不同类别文档的概率值会很小