海量数据处理专题(二)——Bloom Filter

1 什么是Bloom Filter

布隆过滤器(Bloom Filter)是一个判断集合中是否包含特定元素的算法。比如,判断一个英文单词是否在字典中(单词拼写检查);黑名单检查等。也常用在搜索引擎中。布隆过滤器由一个很长的二进制向量和一系列随机映射函数组成。提供插入但不提供删除,但有用计数器代替bit位的变体提供删除操作。

2 适用范围

可以用来实现数据字典,进行数据的判重,或者集合求交集

3 基本原理及要点

对于原理来说很简单,位数组外加k个独立hash函数。Bloom filter提供两种基本的操作,将元素加入集合和判断某一元素是否属于该集合,一下说明如何操作:

将一个元素加入集合:首先将要加入集合的元素用k个hash函数进行hash,得到k个hash index,然后在集合的位数组中将这k个hash index的位置置1,下面用两幅图来描述这个过程。
bloom filter位数组(集合)的初始状态
插入两个个元素,X1,X2:
bloom-filter-插入元素
查找元素是否属于该集合:首先同样用定义的hash函数对该元素进行hash得到hash index,然后查位数组中对应的hash index是否都是1,如果是,则表明该元素属于该集合,反之不属于【当然不全是了,请继续看后面】,如图,判断元素Y1,Y2是否属于该集合。
bloom-filter-判断元素是否属于集合
如上图,由于y1的三个hash index有一个不为1,因此不属于该集合,而y2所有的hash index的位置上都为1,因此属于该集合。

4 一个电子邮箱的例子

假定存储一亿个电子邮件地址.

  1. 先建立一个16 亿二进制常量,即两亿字节的向量,然后将这16 亿个二进制位全部设置为零。
  2. 对于每一个电子邮件地址X,用8 个不同的随机数产生器(F1,F2, …, F8)产生8 个信息指纹(f1, f2, …, f8)。
  3. 再用一个随机数产生器G 把这8 个信息指纹映射到1 到16 亿中的8 个自然数g1, g2, …, g8。
    现在我们把这8 个位置的二进制位全部设置为1。当我们对这1 亿个E-mail 地址都进行这样的处理后。一个针对这些E-mail地址的布隆过滤器就建成了,如图所示
    在这里插入图片描述
    在检测一个电子邮件是否在黑名单采用如下步骤:
  4. 用8 个随机数产生器(F1, F2, …, F8)对这个地址产生8 个信息指纹S1, S2, …, S8。
  5. 将这8 个指纹对应到布隆过滤器的8 个二进制位,分别是T1, T2, …, T8。
    如果Y 在黑名单中,显然,T1, T2, …, T8 对应的8 个二进制位一定是1。这种方法有一个缺点就是可能会出现误判。但这种情况概率非常小,并且可以用白名单的方法来补救。误判率与保存时占用的bit数负相关,见下表:
    在这里插入图片描述

5 False positives 概率推导

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

6 用例

在很多Key-Value系统中也使用了布隆过滤器来加快查询过程,如 Hbase,Accumulo,Leveldb,一般而言,Value 保存在磁盘中,访问磁盘需要花费大量时间,然而使用布隆过滤器可以快速判断某个Key对应的Value是否存在,因此可以避免很多不必要的磁盘IO操作,只是引入布隆过滤器会带来一定的内存消耗,下图是在Key-Value系统中布隆过滤器的典型使用:
在这里插入图片描述

7 一个Java实现

我在爬虫项目中用布隆过滤器保存已经访问过的URL。一个URL用8个指纹信息映射,布隆列表长32M,可以在2%的错误率下映射16K个URL。用java代码实现的时候分为两步:

  1. 用BitSet类构建一个定长二进制表;类构建一个哈希数组(8个哈希函数)。
  2. 定义插入和检查两个函数。

说明: BitSet是java.util中的一个类,大小可变,值为boolean类型。提供set、get、clean等操作。可以参考博文java中的BitSet学习进一步了解。 其实核心代码很短,下面是工程代码的一部分,所以略有冗长。

布隆过滤器java代码如下:

import java.util.BitSet;

public class BloomFilter implements visitedFrontier {

    private static final int DEFAULT_SIZE=2<<24;
    private static final int[] seeds=new int[]{7,11,13,19,23,31,37,61};
    private BitSet bits=new BitSet(DEFAULT_SIZE);//二进制列表32M
    private Hash[] func=new Hash[seeds.length];  //8个哈希函数

    private static int size=0;//保存已经插入的元素个数

    public BloomFilter(){
        for(int i=0;i<seeds.length;i++)
            func[i]=new Hash(DEFAULT_SIZE,seeds[i]);
    }

    @Override
    public void put(Url url) {
        // TODO Auto-generated method stub
        if(url!=null)
            put(url.getOriUrl());
    }

    @Override
    public void put(String value) {
        // TODO Auto-generated method stub
        size++;
        for(Hash h:func)//映射位置true
            bits.set(h.getHash(caculateUrl(value)), true);
    }

    @Override
    public boolean contains(Url url) {
        // TODO Auto-generated method stub
        return contains(url.getOriUrl());
    }

    @Override
    public boolean contains(String value) {
        // TODO Auto-generated method stub
        if(value==null)return false;

        boolean ret=true;
        for(Hash h:func)//检测每一个映射到的bit位是否为true
            ret&=bits.get(h.getHash(caculateUrl(value)));
        return ret;
    }

    public static class Hash{
        private int cap;//保证映射范围在BitSet内
        private int seed;
        public Hash(int cap,int seed){
            this.cap=cap;
            this.seed=seed;
        }
        public int getHash(String value)
        {
            int result=0;
            for(int i=0;i<value.length();i++){//没一位加权相加
                result=seed*result+value.charAt(i);
            }
            return (cap-1)&result;
        }
    }

    private String caculateUrl(String url)
    {
        //将没一个url都映射为128个字节的十六进制数,因为有些url相似度很高
        return MD5.getMD5(url);
    }

    public int size() {
        // TODO Auto-generated method stub
        return size;
    }

    public static void main(String[] args)
    {
        String value=new String("http://www.baidu.com");
        BloomFilter filter=new BloomFilter();
        System.out.println(filter.contains(value));
        filter.put(value);
        System.out.println(filter.contains(value)); 

    }
}

public interface visitedFrontier {
    public void put(Url url);
    public void put(String value);

    public boolean contains(Url url);
    public boolean contains(String value);
}

原文链接:

  1. 海量数据处理专题(二)——Bloom Filter
  2. BoolmFilter
  3. 布隆过滤器(Bloom Filter)详解
深度学习是机器学习的一个子领域,它基于人工神经网络的研究,特别是利用多层次的神经网络来进行学习和模式识别。深度学习模型能够学习数据的高层次特征,这些特征对于图像和语音识别、自然语言处理、医学图像分析等应用至关重要。以下是深度学习的一些关键概念和组成部分: 1. **神经网络(Neural Networks)**:深度学习的基础是人工神经网络,它是由多个层组成的网络结构,包括输入层、隐藏层和输出层。每个层由多个神经元组成,神经元之间通过权重连接。 2. **前馈神经网络(Feedforward Neural Networks)**:这是最常见的神经网络类型,信息从输入层流向隐藏层,最终到达输出层。 3. **卷积神经网络(Convolutional Neural Networks, CNNs)**:这种网络特别适合处理具有网格结构的数据,如图像。它们使用卷积层来提取图像的特征。 4. **循环神经网络(Recurrent Neural Networks, RNNs)**:这种网络能够处理序列数据,如时间序列或自然语言,因为它们具有记忆功能,能够捕捉数据中的时间依赖性。 5. **长短期记忆网络(Long Short-Term Memory, LSTM)**:LSTM 是一种特殊的 RNN,它能够学习长期依赖关系,非常适合复杂的序列预测任务。 6. **生成对抗网络(Generative Adversarial Networks, GANs)**:由两个网络组成,一个生成器和一个判别器,它们相互竞争,生成器生成数据,判别器评估数据的真实性。 7. **深度学习框架**:如 TensorFlow、Keras、PyTorch 等,这些框架提供了构建、训练和部署深度学习模型的工具和库。 8. **激活函数(Activation Functions)**:如 ReLU、Sigmoid、Tanh 等,它们在神经网络中用于添加非线性,使得网络能够学习复杂的函数。 9. **损失函数(Loss Functions)**:用于评估模型的预测与真实值之间的差异,常见的损失函数包括均方误差(MSE)、交叉熵(Cross-Entropy)等。 10. **优化算法(Optimization Algorithms)**:如梯度下降(Gradient Descent)、随机梯度下降(SGD)、Adam 等,用于更新网络权重,以最小化损失函数。 11. **正则化(Regularization)**:技术如 Dropout、L1/L2 正则化等,用于防止模型过拟合。 12. **迁移学习(Transfer Learning)**:利用在一个任务上训练好的模型来提高另一个相关任务的性能。 深度学习在许多领域都取得了显著的成就,但它也面临着一些挑战,如对大量数据的依赖、模型的解释性差、计算资源消耗大等。研究人员正在不断探索新的方法来解决这些问题。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值