- 博客(1)
- 资源 (4)
- 收藏
- 关注
转载 TF-IDF、向量空间模型和余弦相关度
一、TF-IDF TF-IDF是信息检索和数据挖掘中常用的一种加权技术。它是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。 TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。 TF词频(Term Frequency)指的是某一个给定的词语在该文件中出现的频
2012-12-28 15:06:49 2342
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人