TF_IDF是:,用于对文章分类,思想:某个词在一篇文章中出现的次数多,在其他文章中出现的次数少,认为这个词可以表示该文章的类别。TF表示某词在一篇文章中出现的次数,IDF:翻文档词频,表示在文章集合中包含该词的文章越少,IDF越大,该词有较好的区分能力。
TF计算公式:nij表示词ti在文章dj中出现的次数,分母表示文章dj中所有词的个数
IDF计算公式:|D|表示文档集合中所有文章的个数,分母表示包含词条ti的文章个数,有可能出现分母为0的情况,所以一般用 表示分母
然后