2012年09月_hxxiaopei

09月 06月 05月 04月 03月 02月

原创 LDA基本介绍以及LDA源码分析(BLEI)

Blei基本介绍： topic model，之前已经介绍过(http://blog.csdn.net/hxxiaopei/article/details/7617838)topic model本质上就一个套路，在doc-word user-url user-doc等关系中增加topic层，扩充为2层结构，一方面可以降维，另一方面挖掘深层次的关系，用户doc word user ur

2012-09-30 17:49:19 33820 5

原创先验概率后验概率似然极大似然估计极大后验估计共轭概念

最近在看LDA，里面涉及到狄利克雷的概念，为了把这个事情搞明白，查了一些相关概率知识，举个例子，掷硬币，伯努利实验中随机变量x={正面,背面}，正面的概率μ为模型参数，假定做了N次试验，Data 中观察序列为X={正面，正面。。。。反面}，正面的次数为k，服从二项分布:p(X|μ)∼pk∗(1−P)(N−k)P(X|μ) 则成为似然函数。针对观察到的随机变量(也就是D

2012-09-30 16:11:36 15111 7

原创 LSH(local sensitive hash)详解

LSH local sensitive hash，来自于 mining of massive datasets包括lsh的详细介绍以及针对不同距离函数的LSH。作用：解决的问题：相似性计算，避免两两计算，提供一组Hash函数，将相似的pair放在一个bucket里面，降低计算规模。约束：Hash函数的要求:1.相似的pair比不相似的paire更容易成为candidate

2012-09-17 18:08:02 23334 1

原创数据挖掘之lsh minhash simhash

在项目中碰到这样的问题：互联网用户每天会访问很多的网页，假设两个用户访问过相同的网页，说明两个用户相似，相同的网页越多，用户相似度越高，这就是典型的CF中的user-based推荐算法。算法的原理很简单，只要两两计算用户的相似性，针对每个用户，获取最相似的K个用户即可。但是在实际的工程上，假定用户规模在亿的规模N，计算复杂度为N*N，即使是分布式，也是非常可怕的复杂度。

2012-09-14 00:51:56 19685 1

page rank 介绍

page rank介绍，可以快速对page rank有初步的了解，明白google是怎么rank的(当然rank策略不限于pagerank)

2010-12-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人