基数估计算法

最新推荐文章于 2022-05-20 10:30:24 发布

anghlq

最新推荐文章于 2022-05-20 10:30:24 发布

阅读量3.1k

点赞数

分类专栏：云在天涯

本文链接：https://blog.csdn.net/anghlq/article/details/39160827

版权

云在天涯专栏收录该内容

77 篇文章 0 订阅

订阅专栏

在我们的业务场景中需要计算UV或者IP之类的bitmap信息，使用hashset之类的解决方案对内存开销较大，因此引入了基数估算，当前的应用是使用JAVA。下面给出一些测试数据。

AdaptiveCounting库：

<dependency>
<groupId>com.clearspring.analytics</groupId>
<artifactId>stream</artifactId>
<version>2.7.0</version>
</dependency>

Adaptive Counting（简称AC）在“Fast and accurate traffic matrix measurement using adaptive cardinality counting”一文中被提出。其思想也非常简单直观：实际上AC只是简单将LC和LLC组合使用，根据基数量级决定是使用LC还是LLC。具体是通过分析两者的标准差，给出一个阈值，根据阈值选择使用哪种估计。

计算过程：

使用五个AdaptiveCounting实例，均衡去offer目标数据，最后merge再得到统计数据

每个实例有2的11次方桶（内存开销2K），