![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
文本挖掘
leonwlwei
这个作者很懒,什么都没留下…
展开
-
深入浅出TF-IDF模型
信息检索是当前应用十分广泛的一种技术,论文检索、搜索引擎都属于信息检索的范畴。在搜索引擎等实际应用中广泛使用的是tf-idf模型。1 TF-IDF模型tf-idf模型的主要思想是:如果词w在一篇文档d中出现的频率高,并且在其他文档中很少出现,则认为词w具有很好的区分能力,适合用来把文章d和其他文章区分开来。该模型主要包含了两个因素:词w在文档d中的词频tf(Term F转载 2017-07-31 10:38:50 · 6094 阅读 · 0 评论 -
TF-IDF模型的概率解释
信息检索概述信息检索是当前应用十分广泛的一种技术,论文检索、搜索引擎都属于信息检索的范畴。通常,人们把信息检索问题抽象为:在文档集合D上,对于由关键词w[1] … w[k]组成的查询串q,返回一个按查询q和文档d匹配度relevance(q, d)排序的相关文档列表D’。对于这一问题,先后出现了布尔模型、向量模型等各种经典的信息检索模型,它们从不同的角度提出了自己的一套解决方案。布转载 2017-07-31 15:40:04 · 581 阅读 · 0 评论