计算机理论
文章平均质量分 76
Mr_Lyang
数挖小白
展开
-
信息论及其若干结论和部分证明过程
首先在介绍信息论之前,有必要提一下信息论之父,克劳德·艾尔伍德·香农(Claude Elwood Shannon,1916年4月30日-2001年2月26日)。他是美国著名的数学家、电子工程师、密码学家。1948年,香农发表了划时代的论文-《A Mathematical Theory of Communication》,奠定了现代信息论的基础。引言问题:给定两个离散分布,如何衡量他们之间的相似度?连原创 2016-05-16 21:46:27 · 1816 阅读 · 0 评论 -
Reservior Sampling(蓄水池采样) in Data Streams
引言在统计学习里面,采样通常分为两类,unbiased Sample(无偏采样)和biased Sample(无偏采样)。本文介绍的蓄水次采样就是一种无偏采样算法。它的特点是在对不知道样本总体个数或者样本总体个数太大,大到无法全部存放在内存中的情况下,可以保证每个样本被选取的概率是一样的,为K/N,其中K为“蓄水池”的大小,N为当前数据流中包含的样本个数。 算法描述假设有一个数据流,其中包含的样本原创 2016-05-30 18:39:27 · 1799 阅读 · 0 评论