自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

xiaopei的博客

--好好学习,天天向上

  • 博客(4)
  • 资源 (1)
  • 收藏
  • 关注

原创 LDA基本介绍以及LDA源码分析(BLEI)

Blei基本介绍: topic model,之前已经介绍过(http://blog.csdn.net/hxxiaopei/article/details/7617838)topic model本质上就一个套路,在doc-word user-url user-doc等关系中增加topic层,扩充为2层结构,一方面可以降维,另一方面挖掘深层次的关系,用户doc word user ur

2012-09-30 17:49:19 33820 5

原创 先验概率 后验概率 似然 极大似然估计 极大后验估计 共轭 概念

最近在看LDA,里面涉及到狄利克雷的概念,为了把这个事情搞明白,查了一些相关概率知识,举个例子,掷硬币,伯努利实验 中随机变量x={正面,背面},正面的概率μ为模型参数,假定做了N次试验,Data 中观察序列为X={正面,正面。。。。反面},正面的次数为k,服从二项分布:p(X|μ)∼pk∗(1−P)(N−k)P(X|μ) 则成为似然函数。针对观察到的随机变量(也就是D

2012-09-30 16:11:36 15111 7

原创 LSH(local sensitive hash)详解

LSH local sensitive hash,来自于 mining of massive datasets包括lsh的详细介绍以及针对不同距离函数的LSH。作用:解决的问题:相似性计算,避免两两计算,提供一组Hash函数,将相似的pair放在一个bucket里面,降低计算规模。约束:Hash函数的要求:1.相似的pair比不相似的paire更容易成为candidate

2012-09-17 18:08:02 23334 1

原创 数据挖掘之lsh minhash simhash

在项目中碰到这样的问题:互联网用户每天会访问很多的网页,假设两个用户访问过相同的网页,说明两个用户相似,相同的网页越多,用户相似度越高,这就是典型的CF中的user-based推荐算法。算法的原理很简单,只要两两计算用户的相似性,针对每个用户,获取最相似的K个用户即可。但是在实际的工程上,假定用户规模在亿的规模N,计算复杂度为N*N,即使是分布式,也是非常可怕的复杂度。

2012-09-14 00:51:56 19685 1

page rank 介绍

page rank介绍,可以快速对page rank有初步的了解,明白google是怎么rank的(当然rank策略不限于pagerank)

2010-12-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除