数据流挖掘_Flajolet-Martin算法

最新推荐文章于 2024-04-23 17:36:06 发布

llwszjj

最新推荐文章于 2024-04-23 17:36:06 发布

阅读量3.4k

点赞数 3

分类专栏： Data Mining

本文链接：https://blog.csdn.net/llwszjj/article/details/25629009

版权

在实际应用中，我们经常碰到这种情况，即要统计某个对象或者事件独立出现的次数。对于较小的数据量，这很容易解决，我们可以首先在内存中对序列进行排序，然后扫描有序序列统计独立元素数目。其中排序时间复杂度为O(n*log(n))，扫描时间复杂度为O(n)，所以总的时间复杂度为O(n*log(n))。当内存非常充裕时，我们还可以考虑使用哈希，将时间复杂度降到O(n)。尤其是当元素只能取有限范围的整数值时，我们还可以使用BitMap节约内存。但是在处理数据流序列时，比如，google的独立访问IP统计，由于序列非常长，元素取值范围可能比较广，单个元素占用内存可能比较多，导致内存中无法容纳整个序列，甚至无法容纳整个独立元素集合。此时，不论是基于排序还是基于哈希的方法都不具备可行性。

Flajolet-Martin(FM)算法能够较好地解决估算数据流序列中独立元素数目的问题。

假设我们有1万个int型数字（可重复的），我们想找出这个数字集合中不重复的数字的个数。怎么办呢？很简单，将这1万个数字读进内存，存放到hashset中，那么hashset的size就是不重复数字的个数。接下来，问题变得更加的复杂，有100亿个数字，怎么办? 全部读取到内存中可能会有问题，如果这其中有1亿个不重复的数字，那么至少需要内存 100M * sizeof(int)，内存也许不够。 FM算法就是为了解决这个问题。假设n个object，其中有m个唯一的，那么FM算法只需要log(m)的内存占用（实际操作中会是k*log(m)），以及O(n)的运算时间。当然，FM的问题是，它的结果只是一个估计值，不是精确结果。

具体思路如下：

最低0.47元/天解锁文章

llwszjj

关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
数据流挖掘_Flajolet-Martin算法

在实际应用中，我们经常碰到这种情况，即要统计某个对象或者事件独立出现的次数。对于较小的数据量，这很容易解决，我们可以首先在内存中对序列进行排序，然后扫描有序序列统计独立元素数目。其中排序时间复杂度为O(n*log(n))，扫描时间复杂度为O(n)，所以总的时间复杂度为O(n*log(n))。当内存非常充裕时，我们还可以考虑使用哈希，将时间复杂度降到O(n)。尤其是当元素只能取有限范围的整数值时，我
复制链接

扫一扫

专栏目录