数据分析算法
文章平均质量分 83
Seethy
这个作者很懒,什么都没留下…
展开
-
解读Cardinality Estimation算法(第四部分:HyperLogLog Counting及Adaptive Counting)
原文:解读Cardinality Estimation算法(第四部分:HyperLogLog Counting及Adaptive Counting)在前一篇文章中,我们了解了LogLog Counting。LLC算法的空间复杂度为O(log2(log2(Nmax))),并且具有较高的精度,因此非常适合用于大数据场景的基数估计。不过LLC也有自己的问题,就是当基数不太大时,估计值的误转载 2015-07-02 19:24:33 · 1134 阅读 · 0 评论 -
解读Cardinality Estimation算法(第一部分:基本概念)
原文:解读Cardinality Estimation算法(第一部分:基本概念)转载 2015-07-02 19:09:32 · 1204 阅读 · 0 评论 -
解读Cardinality Estimation算法(第二部分:Linear Counting)
原文:解读Cardinality Estimation算法(第二部分:Linear Counting)在上一篇文章中,我们知道传统的精确基数计数算法在数据量大时会存在一定瓶颈,瓶颈主要来自于数据结构合并和内存使用两个方面。因此出现了很多基数估计的概率算法,这些算法虽然计算出的结果不是精确的,但误差可控,重要的是这些算法所使用的数据结构易于合并,同时比传统方法大大节省内存。在转载 2015-07-02 19:17:59 · 1295 阅读 · 0 评论 -
解读Cardinality Estimation算法(第三部分:LogLog Counting)
原文:解读Cardinality Estimation算法(第三部分:LogLog Counting)上一篇文章介绍的Linear Counting算法相较于直接映射bitmap的方法能大大节省内存(大约只需后者1/10的内存),但毕竟只是一个常系数级的降低,空间复杂度仍然为O(Nmax)。而本文要介绍的LogLog Counting却只有O(log2(log2(Nmax)))转载 2015-07-02 19:22:01 · 1231 阅读 · 0 评论