位图
位图可以节省存储空间。
public class BitMap { // Java 中 char 类型占 16bit,也即是 2 个字节
private char[] bytes;
private int nbits;
public BitMap(int nbits) {
this.nbits = nbits;
this.bytes = new char[nbits/16+1];
}
public void set(int k) {
if (k > nbits) return;
int byteIndex = k / 16;
int bitIndex = k % 16;
bytes[byteIndex] |= (1 << bitIndex);
}
public boolean get(int k) {
if (k > nbits) return false;
int byteIndex = k / 16;
int bitIndex = k % 16;
return (bytes[byteIndex] & (1 << bitIndex)) != 0;
}
}
将数字 A 的第 k 位设置为1:A = A | (1 << (k - 1))
将数字 A 的第 k 位设置为0:A = A & ~(1 << (k - 1))
检测数字 A 的第 k 位:A & (1 << (k - 1)) != 0
用于理解bitmap中代码
布隆过滤器
适用范围
布隆过滤器适用于不需要100%准确的,允许存在小规模判误的大规模判重场景。比如爬虫网站去重,比如统计大型网站每日UV数(用户访问数)。
原理
利用位图,以及多个hash函数。只能保证查找失败的确是没有,不能保证查找成功的是确实存在的。只会对存在的情况进行误判。bloom filter: False is always false. True is maybe true.
作者回复: 布隆过滤器本身就是解决位图消耗空间比较多的问题。位图的大小是数据的范围。而布隆过滤器的大小应该是小于位图大小的,所以肯定就是数据的范围了。
参照极客时间上:数据结构与算法之美课程做的笔记。