基数估计算法

在我们的业务场景中需要计算UV或者IP之类的bitmap信息,使用hashset之类的解决方案对内存开销较大,因此引入了基数估算,当前的应用是使用JAVA。下面给出一些测试数据。

AdaptiveCounting库:

<dependency>
            <groupId>com.clearspring.analytics</groupId>
            <artifactId>stream</artifactId>
            <version>2.7.0</version>
        </dependency>

Adaptive Counting(简称AC)在“Fast and accurate traffic matrix measurement using adaptive cardinality counting”一文中被提出。其思想也非常简单直观:实际上AC只是简单将LC和LLC组合使用,根据基数量级决定是使用LC还是LLC。具体是通过分析两者的标准差,给出一个阈值,根据阈值选择使用哪种估计。

计算过程:

使用五个AdaptiveCounting实例,均衡去offer目标数据,最后merge再得到统计数据

每个实例有2的11次方桶(内存开销2K),

 总量10W总量100W总量1W
Acc_1198112022992046
Acc_2194262034661982
Acc_3196841939852014
Acc_4200752042942038
Acc_5203282065191974
Acc_m10046799981910030
每个实例有2的8次方桶(内存开销256B),
 总量10W总量100W总量1W
Acc_1187382178241901
Acc_2220441997462142
Acc_3190971975941850
Acc_4201052268532007
Acc_5180902166481906
Acc_m10289210139539784


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值