data mining
文章平均质量分 70
小小八卦姐
程序媛一枚爱读书爱生活
展开
-
TF-IDF模型的概率解释
信息检索概述信息检索是当前应用十分广泛的一种技术,论文检索、搜索引擎都属于信息检索的范畴。通常,人们把信息检索问题抽象为:在文档集合D上,对于由关键词w[1] … w[k]组成的查询串q,返回一个按查询q和文档d匹配度relevance(q, d)排序的相关文档列表D’。对于这一问题,先后出现了布尔模型、向量模型等各种经典的信息检索模型,它们从不同的角度提出了自己的一套解决方案。布转载 2013-07-16 15:29:41 · 931 阅读 · 0 评论 -
数据流挖掘——窗口内的计数问题
转自:http://msdn.microsoft.com/zh-cn/library/ff518595(v=sql.105).aspx计数窗口定义处于某个时间段内并且您可以对其执行某些基于集的计算(例如聚合)的事件的子级。计数窗口与快照窗口相似,也没有固定的窗口大小。它们由其包含的事件的数目定义。这可以实现多种方案,其中,基于集的操作必须应用于具有非定期事件频率的流中特定数目的事件。转载 2013-08-19 15:27:12 · 973 阅读 · 0 评论 -
相似项发现-LSH
1 LSH的特定形式先表示为shingle集合,然后经过哈希处理表示为短签名集合。1.1 面向最小哈希签名的LSHLSH的一个一般性做法就是对目标项进行多次哈希处理,使得相似项比不相似项更可能哈希到同一桶中。然后将至少有一次哈希到同一桶中的文档对看成是候选对(candidate pair)我们只需检查这些候选对之间的相似度。那些哈希到同一桶中的非相似围挡对成为伪正例(false pos原创 2013-08-11 21:57:24 · 1453 阅读 · 0 评论 -
相似项发现-minhash
相似项发现中两个重要算法:Broder提出的shingling算法和Charikar的simhash算法shingle算法的核心思想是为每个文件提取组特征值,以特征值集合来计算相似性,从而降低空间和计算复杂性来提高性能。相似项数据检测算法大致流程如下:(1)将数据段分解成一组shingle(即子序列或数据块),可以采用定长、变长、单词或段落(文本文件)等分块算法;(2)原创 2013-08-10 21:51:46 · 2668 阅读 · 0 评论