数据流基本问题--独立元素计数(一)

本文探讨了如何在数据流中计算独立元素的数量。当元素过多导致内存限制时,提出了使用哈希和2-universal hash family来估计独立元素数目。算法通过记录元素哈希值的zero()最大值作为估算依据。通过运行算法多次并取中位数(median trick),可以提高估算精度。文中还引用了马尔科夫不等式和切比雪夫不等式来分析误差概率。
摘要由CSDN通过智能技术生成

下面我们讨论如何计算独立元素数目。

一、问题定义

如果一个数据流,其中m为数据流的大小,。我们可以定义每个元素

出现的次数,其中为第i个元素出现的次数。假设,容易得知d为在

数据流中出现的不同元素数目,也就是独立元素数目。

对于这个问题,可以在内存中使用高效的搜索结构(比如平衡BST等)保留当前已经出现的元素。但是如果元素数目实在太

多以致搜索结构无法访问内存时,我们可以使用更多的机器或者将数据结构的一部分放入到外存中。

上述做法是计算流中独立元素的精确解。如果我们仅仅需要对独立元素数目进行估计,则方法要简单的多,空间消耗也很少

(一般确定性算法空间复杂度需要)。

二、具体算法

通过将流中元素哈希到一个足够长的位串,就可以实现独立元素数目的估计。这里要求哈希函数属于2-universal hash family。要求位串必须要足够长,以致哈希函数的可能结果数目要远大于流中独立元素个数。如果在流中看到的不同元素越多,我们看到的不同哈希值也就越多。对于一个元素哈希后的结果p,我们定义zero(p)为p的二进制表示尾部中连续0的个数。也就是如下定义:

  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值