自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

xiaopei的博客

--好好学习，天天向上

11月 09月 08月 07月 06月 05月

原创 Expectation Maximization(EM) algorithm

ML可以进行参数估计L(a) = Pr(X|a)，则a = argmax L(a) = argmaxPr(X|a) 求解时，如果 X与参数(model)关系比较简单，比如X直接由高斯分布， bonuli 分布等产生，这种情况下，给定 model 以及相应的观察数据，来估计 model 的参数 a 时，比较简单，直接可以计算 P(X|a) ，最大化后求出 a 值。但是如果input和Output之间没有必然的联系，也就是说无法直接计算p(X|a)时，就需要EM算法，EM是用来计算ML的一种算法框架

2010-08-31 06:53:00 1866

转载 Bloom Filter概念和原理

<br /> <br />Bloom Filter是一种空间效率很高的随机数据结构，它利用位数组很简洁地表示一个集合，并能判断一个元素是否属于这个集合。Bloom Filter的这种高效是有一定代价的：在判断一个元素是否属于某个集合时，有可能会把不属于这个集合的元素误认为属于这个集合（false positive）。因此，Bloom Filter不适合那些“零错误”的应用场合。而在能容忍低错误率的应用场合下，Bloom Filter通过极少的错误换取了存储空间的极大节省。集合表示和元素查询<br />下面我

2010-08-26 13:09:00 569

原创 Maximum likelihood estimate

似然估计P(Sample|Model) 已知样本Sample和假定模型Model，模型中有待定参数，P(Sample|Model, α)。最大似然估计：在给定的model下，找到α，保证P(Sample|Model)的概率最大，也就是最有可能是该Model产生的。 case1: n次独立实验，事件A发生了k次，则事件A发生的概率p是多少。 Model=柏松分布，则服从泊松分布的情况下，事件A发生k次的概率，为P(S|Model,p)= (n,k)*p^k * (1-p)^(n-k) max-l

2010-08-24 14:30:00 1662

原创信息论[渐进均分性]

None

2010-08-22 08:44:00 2983

page rank 介绍

page rank介绍，可以快速对page rank有初步的了解，明白google是怎么rank的(当然rank策略不限于pagerank)

2010-12-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

hxxiaopei CSDN认证博客专家 CSDN认证企业博客

码龄18年

IP 属地：北京市

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

78: 原创

73万+: 周排名

117万+: 总排名

53万+: 访问

: 等级

5198: 积分

151: 粉丝

55: 获赞

33: 评论

49: 收藏

私信

关注

热门文章

分类专栏

推荐系统 8篇
自然语言处理 11篇
数据挖掘 8篇
算法和数据结构 8篇
输入法 5篇
c/c++ 39篇
Mobile 2篇
linux 17篇
随笔 1篇
机器学习 7篇

最新评论

自动添加注释(转)
A丶萝卜哥: map shit :/# *Last modified: /s@:.*$@/=strftime(": %Y-%m-%d %H:%M")@ 最后两个@...@之间替换的/=应该修改为\= 才可以替换时间，我实验得到了结果。大神上面的东西还是非常好用的。
LDA基本介绍以及LDA源码分析(BLEI)
Tisfy: 这让我想起了先贤的一句话：少年易学老难成，一寸光阴不可轻。
[学习笔记]学习主题模型(Topic Model)和PLSA( probabilistic latent semantic analysis）
Edward-liang: n(di,wj) 博主请问下这个n是什么函数？谢谢
数据挖掘之lsh minhash simhash
ktt8868: simhash 不是jaccard吧？他是 random project 对空间的一种划分推出，可以有weight；

最新文章

提示

确定要删除当前文章？

取消删除