golang Bitmap/Bloom/Cuckoo Filter

最新推荐文章于 2021-10-20 22:48:00 发布

皿小草

最新推荐文章于 2021-10-20 22:48:00 发布

阅读量1.2k

点赞数

分类专栏： golang

本文链接：https://blog.csdn.net/oqqYuan1234567890/article/details/89264488

版权

golang 专栏收录该内容

38 篇文章 0 订阅

订阅专栏

bitmap和bloom filter都可以对大量数据(通常是超过10亿条)构造集合，当要判断一个新的元素是否在这个大数据集合里面，两种方式都可以准确判断出“新元素不在这个集合”，但是“新元素在这个集合”的判断可能不准，在可以接受误判的系统中，bitmap和bloom filter都可以作为“神器”使用

bitmap

bitmap算法原理可以wiki一下，个人感觉它就是一个map[uint32]bool,

下面给出一个demo，可以观察到bitmap和map的差异


package main

import (
	"fmt"
	"github.com/RoaringBitmap/roaring"
	"runtime"
	"time"
)

func main() {

	rb1 := roaring.New()

	start := time.Now()

	for i := uint32(0); i < 1e7; i++ {
		rb1.Add(i)
	}

	stat := &runtime.MemStats{}
	runtime.ReadMemStats(stat)
	nowMem := stat.Sys

	fmt.Println("set bitmap 1e7 items duration:", time.Now().Sub(start))
	fmt.Printf("mem  %f MB\n", float64(nowMem)/1024.0/1024.0)

	start = time.Now()
	for i := uint32(0); i < 1e7; i++ {
		rb1.Contains(i)
	}
	fmt.Println("check bitmap 1e7 items duration:", time.Now().Sub(start))

	start = time.Now()
	m := make(map[uint32]bool, 1e7)
	for i := uint32(0); i < 1e7; i++ {
		m[i] = true
	}

	runtime.ReadMemStats(stat)

	fmt.Println("set native map 1e7 items duration:", time.Now().Sub(start))
	fmt.Printf("mem change %f MB\n", float64(stat.Sys-nowMem)/1024.0/1024.0)

	_b := false
	start = time.Now()
	for i := uint32(0); i < 1e7; i++ {
		_b = m[i]
	}
	fmt.Println("check native 1e7 items duration:", time.Now().Sub(start))
	fmt.Println(_b)

}

输出

$ go run main.go 
set bitmap 1e7 items duration: 202.225188ms
mem  6.101562 MB
check bitmap 1e7 items duration: 352.360879ms
set native map 1e7 items duration: 1.907411454s
mem change 125.302971 MB
check native 1e7 items duration: 1.041810752s
true

由此可见，bitmap的写入速度是原生map的10倍，查找速度是原生map的3倍，存储空间只用了原生map的6%，以上数字均为约数，不同机器运行可能有偏差！

bloom filter

布隆过滤器（英语：Bloom Filter）是1970年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法，缺点是有一定的误识别率和删除困难。

基本概念

如果想判断一个元素是不是在一个集合里，一般想到的是将集合中所有元素保存起来，然后通过比较确定。链表、树、散列表（又叫哈希表，Hash table）等等数据结构都是这种思路。但是随着集合中元素的增加，我们需要的存储空间越来越大。同时检索速度也越来越慢

布隆过滤器的原理是，当一个元素被加入集合时，通过K个散列函数将这个元素映射成一个位数组中的K个点，把它们置为1。检索时，我们只要看看这些点是不是都是1就（大约）知道集合中有没有它了：如果这些点有任何一个0，则被检元素一定不在；如果都是1，则被检元素很可能在。这就是布隆过滤器的基本思想。

优点

相比于其它的数据结构，布隆过滤器在空间和时间方面都有巨大的优势。布隆过滤器存储空间和插入/查询时间都是常数O(k)。另外，散列函数相互之间没有关系，方便由硬件并行实现。布隆过滤器不需要存储元素本身，在某些对保密要求非常严格的场合有优势。

布隆过滤器可以表示全集，其它任何数据结构都不能；

缺点

但是布隆过滤器的缺点和优点一样明显。误算率是其中之一。随着存入的元素数量增加，误算率随之增加。但是如果元素数量太少，则使用散列表足矣。

另外，一般情况下不能从布隆过滤器中删除元素。我们很容易想到把位数组变成整数数组，每插入一个元素相应的计数器加1, 这样删除元素时将计数器减掉就可以了。然而要保证安全地删除元素并非如此简单。首先我们必须保证删除的元素的确在布隆过滤器里面。这一点单凭这个过滤器是无法保证的。另外计数器回绕也会造成问题。

go 实现

参考：https://github.com/willf/bloom

Cuckoo filter

在存储效率和假阳率比bloom filter更好的是cuckoo filter，也有一个go版本的实现 https://github.com/seiflotfy/cuckoofilter

皿小草

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
golang Bitmap/Bloom/Cuckoo Filter

bitmap和bloom filter都可以对大量数据(通常是超过10亿条)构造集合，当要判断一个新的元素是否在这个大数据集合里面，两种方式都可以准确判断出“新元素不在这个集合”，但是“新元素在这个集合”的判断可能不准，在可以接受误判的系统中，bitmap和bloom filter都可以作为“神器”使用bitmapbitmap算法原理可以wiki一下，个人感觉它就是一个map[uint32]b...
复制链接

扫一扫

专栏目录