基数估计:线性概率计数器

    线性概率计数器可以在线性时间你估计数据的基数。

 

# -*- coding: utf-8 -*-
"""
Created on Tue Jan 15 16:17:10 2013

@author: chen ming
基数估计:线性概率计数器
"""
import random
import math
M=120000      #
rna= 20000
N=14
data=[random.random() for i in range(M)]
bitmap=[0]*rna
for it in data:
    ind = ((hash(it))) % (rna-1)
    bitmap[ind]=1
    
rate=float(rna-sum(bitmap))/rna

print 'sum(bitmap)  %d' % sum(bitmap)
print 'size(bitmap) %d' %  rna
print 'num of 0 in bitmap %f' % rate
aa=-rna*math.log(rate)
print 'result: %d ' % aa
ac=aa/M
print 'result//M: %f ' % ac


结果:

sum(bitmap)  19942
size(bitmap) 20000
num of 0 in bitmap 0.002900
result: 116860 
result//M: 0.973841 


准确率为97.3%

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值