关于tfidf的一些记录
tfidf是tf值与idf值的乘积,表示某词语与所在文章的相关度
首先是tf, 他表示某个词语在某一篇文章出现的频率,计算方法简单粗暴,用词语的出现次数除以总次数,tf越大代表这个词语在文章中出现的频率越高,初步认为与文章的中心思想相关度高。
为了减少例如 ‘我的’, ‘然后’, ‘所以’ 这样的词语通过tf值产生和文章相关度高的错误,产生了idf值
idf值表示含有该词语的文章在总文章中的比例的倒数对应的对数,极端情况下,该词语如果在所有文章中均有出现,则idf值为0,直接将该词语表示为无关,相关度为0.