golang Bitmap/Bloom/Cuckoo Filter

bitmap和bloom filter都可以对大量数据(通常是超过10亿条)构造集合,当要判断一个新的元素是否在这个大数据集合里面,两种方式都可以准确判断出“新元素不在这个集合”,但是“新元素在这个集合”的判断可能不准,在可以接受误判的系统中,bitmap和bloom filter都可以作为“神器”使用

bitmap

bitmap算法原理可以wiki一下,个人感觉它就是一个map[uint32]bool,

下面给出一个demo,可以观察到bitmap和map的差异


package main

import (
	"fmt"
	"github.com/RoaringBitmap/roaring"
	"runtime"
	"time"
)

func main() {

	rb1 := roaring.New()

	start := time.Now()

	for i := uint32(0); i < 1e7; i++ {
		rb1.Add(i)
	}

	stat := &runtime.MemStats{}
	runtime.ReadMemStats(stat)
	nowMem := stat.Sys

	fmt.Println("set bitmap 1e7 items duration:", time.Now().Sub(start))
	fmt.Printf("mem  %f MB\n", float64(nowMem)/1024.0/1024.0)

	start = time.Now()
	for i := uint32(0); i < 1e7; i++ {
		rb1.Contains(i)
	}
	fmt.Println("check bitmap 1e7 items duration:", time.Now().Sub(start))

	start = time.Now()
	m := make(map[uint32]bool, 1e7)
	for i := uint32(0); i < 1e7; i++ {
		m[i] = true
	}

	runtime.ReadMemStats(stat)

	fmt.Println("set native map 1e7 items duration:", time.Now().Sub(start))
	fmt.Printf("mem change %f MB\n", float64(stat.Sys-nowMem)/1024.0/1024.0)

	_b := false
	start = time.Now()
	for i := uint32(0); i < 1e7; i++ {
		_b = m[i]
	}
	fmt.Println("check native 1e7 items duration:", time.Now().Sub(start))
	fmt.Println(_b)

}


输出

$ go run main.go 
set bitmap 1e7 items duration: 202.225188ms
mem  6.101562 MB
check bitmap 1e7 items duration: 352.360879ms
set native map 1e7 items duration: 1.907411454s
mem change 125.302971 MB
check native 1e7 items duration: 1.041810752s
true


由此可见,bitmap的写入速度是原生map的10倍,查找速度是原生map的3倍,存储空间只用了原生map的6%,以上数字均为约数,不同机器运行可能有偏差!

bloom filter

布隆过滤器(英语:Bloom Filter)是1970年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法,缺点是有一定的误识别率和删除困难。

基本概念

如果想判断一个元素是不是在一个集合里,一般想到的是将集合中所有元素保存起来,然后通过比较确定。链表、树、散列表(又叫哈希表,Hash table)等等数据结构都是这种思路。但是随着集合中元素的增加,我们需要的存储空间越来越大。同时检索速度也越来越慢

布隆过滤器的原理是,当一个元素被加入集合时,通过K个散列函数将这个元素映射成一个位数组中的K个点,把它们置为1。检索时,我们只要看看这些点是不是都是1就(大约)知道集合中有没有它了:如果这些点有任何一个0,则被检元素一定不在;如果都是1,则被检元素很可能在。这就是布隆过滤器的基本思想。

优点

相比于其它的数据结构,布隆过滤器在空间和时间方面都有巨大的优势。布隆过滤器存储空间和插入/查询时间都是常数O(k)。另外,散列函数相互之间没有关系,方便由硬件并行实现。布隆过滤器不需要存储元素本身,在某些对保密要求非常严格的场合有优势。

布隆过滤器可以表示全集,其它任何数据结构都不能;

缺点

但是布隆过滤器的缺点和优点一样明显。误算率是其中之一。随着存入的元素数量增加,误算率随之增加。但是如果元素数量太少,则使用散列表足矣。

另外,一般情况下不能从布隆过滤器中删除元素。我们很容易想到把位数组变成整数数组,每插入一个元素相应的计数器加1, 这样删除元素时将计数器减掉就可以了。然而要保证安全地删除元素并非如此简单。首先我们必须保证删除的元素的确在布隆过滤器里面。这一点单凭这个过滤器是无法保证的。另外计数器回绕也会造成问题。

go 实现

参考:https://github.com/willf/bloom

Cuckoo filter

在存储效率和假阳率比bloom filter更好的是cuckoo filter,也有一个go版本的实现 https://github.com/seiflotfy/cuckoofilter

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值