- 博客(4)
- 资源 (1)
- 收藏
- 关注
原创 LDA基本介绍以及LDA源码分析(BLEI)
Blei基本介绍: topic model,之前已经介绍过(http://blog.csdn.net/hxxiaopei/article/details/7617838)topic model本质上就一个套路,在doc-word user-url user-doc等关系中增加topic层,扩充为2层结构,一方面可以降维,另一方面挖掘深层次的关系,用户doc word user ur
2012-09-30 17:49:19 33820 5
原创 先验概率 后验概率 似然 极大似然估计 极大后验估计 共轭 概念
最近在看LDA,里面涉及到狄利克雷的概念,为了把这个事情搞明白,查了一些相关概率知识,举个例子,掷硬币,伯努利实验 中随机变量x={正面,背面},正面的概率μ为模型参数,假定做了N次试验,Data 中观察序列为X={正面,正面。。。。反面},正面的次数为k,服从二项分布:p(X|μ)∼pk∗(1−P)(N−k)P(X|μ) 则成为似然函数。针对观察到的随机变量(也就是D
2012-09-30 16:11:36 15111 7
原创 LSH(local sensitive hash)详解
LSH local sensitive hash,来自于 mining of massive datasets包括lsh的详细介绍以及针对不同距离函数的LSH。作用:解决的问题:相似性计算,避免两两计算,提供一组Hash函数,将相似的pair放在一个bucket里面,降低计算规模。约束:Hash函数的要求:1.相似的pair比不相似的paire更容易成为candidate
2012-09-17 18:08:02 23334 1
原创 数据挖掘之lsh minhash simhash
在项目中碰到这样的问题:互联网用户每天会访问很多的网页,假设两个用户访问过相同的网页,说明两个用户相似,相同的网页越多,用户相似度越高,这就是典型的CF中的user-based推荐算法。算法的原理很简单,只要两两计算用户的相似性,针对每个用户,获取最相似的K个用户即可。但是在实际的工程上,假定用户规模在亿的规模N,计算复杂度为N*N,即使是分布式,也是非常可怕的复杂度。
2012-09-14 00:51:56 19685 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人