布隆过滤器(Bloom Filter)简单实现

参考文献:
https://my.oschina.net/kiwivip/blog/133498
https://blog.csdn.net/jiaomeng/article/details/1495500
https://blog.csdn.net/hguisu/article/details/7866173
文献中探讨了布隆过滤器的原理和应用场景,以及一些实际应用场景中的增强方案.

GitHub源码
1.这里所写的布隆过滤,只是原理的简单示例,不能实用于实际场景,仅能够做学习参考.

2.我们使用int模拟一个bit, int的0对应bit 0, int的1对应bit 1.
这是非常浪费空间的做法.
所以说如果要应用于实际,需要考虑内存的问题,毕竟布隆过滤最大的好处就是减少内存使用量.

3.布隆过滤器需要多个不同的hash函数计算出多个值,把这些值对应的bitArray中的位置置为1.
在此例中,我们借鉴上述文献中的做法,使用mt_srand()和mt_rand()两个函数配合的方式,模拟多个hash函数
计算字符串的crc32值,把值作为随机函数的seed,取前n个随机数对应n个不同hash函数计算出的值.

4.同时,我们在这里是支持删除操作的.要想支持删除操作,有一种计数器的方式.也就是一个bit被命中就加一.
但是一个bit只能有0和1两个值,所以需要把1个bit扩展为多个bit,使之能够计数.
这样带来的问题是空间会成倍增加,经验的做法是扩展为4个bit,它能够满足大部分需求
原理参考:https://my.oschina.net/kiwivip/blog/133498

5.因为我们是用int模拟的bit,所以在3中提到的扩展问题在我们这里不存在的,这一点需要注意些.

6.我们提供了两个测试,用的是同一组测试数据,测试二会出现一个错误情况.

<?php

class BloomFilter
{
    private $dataAmount;

    private $bitArrayLen;

    private $hashFunctionAmount;

    private $hashValuePool = [];

    //这里使用int模拟一个bit, int的0对应bit 0, int的1对应bit 1.
    //为了支持删除操作,1bit 需要扩展为多个bit,从而能够计数
    private $bitArray = [];

    public function __construct($dataAmount, $bitArrayLen)
    {
        $this->dataAmount = $dataAmount;
        $this->bitArrayLen = $bitArrayLen;
        $this->calculateOptimumHashFunctionAmount();
        $this->initBitArray();
    }

    public function add($str)
    {
        $this->mockHashFunction($str);
        foreach ($this->hashValuePool as $value) {
            $this->bitArray[$value] = $this->bitArray[$value] + 1;
        }
    }

    public function find($str)
    {
        $existsFlag = true;

        $this->mockHashFunction($str);
        foreach ($this->hashValuePool as $value) {
            if ($this->bitArray[$value] <= 0) {
                $existsFlag = false;
            }
        }
        return $existsFlag;
    }

    public function delete($str)
    {
        $response = true;
        if ($this->find($str)) {
            foreach ($this->hashValuePool as $value) {
                $this->bitArray[$value] = $this->bitArray[$value] - 1;
            }
        } else {
            $response = false;
        }

        return $response;
    }

    private function calculateOptimumHashFunctionAmount()
    {
        $this->hashFunctionAmount = ceil(($this->bitArrayLen/$this->dataAmount) * log(2));
    }

    private function initBitArray()
    {
        $this->bitArray = array_fill(0, $this->bitArrayLen, 0);
    }


    private function getRandSeed($str)
    {
        return crc32($str);
    }

    private function mockHashFunction($str)
    {
        $this->hashValuePool = [];
        $seed = $this->getRandSeed($str);
        mt_srand($seed);
        for ($i = 0; $i < $this->hashFunctionAmount; $i++) {
            $this->hashValuePool[] = mt_rand(0, $this->bitArrayLen - 1);
        }
    }
}


class Test
{
    public function run($testData = [], $dataAmount, $bitArrayLen)
    {
        $bloomFilter = new BloomFilter($dataAmount, $bitArrayLen);
        foreach ($testData['data'] as $value) {
            $bloomFilter->add($value);
        }

        echo '<pre>';
        echo 'Original Data:<br>';
        foreach ($testData['data'] as $value) {
            echo $value.';    ';
        }

        echo '<hr>';
        echo 'Before Delete:<br>';
        foreach ($testData['exists'] as $value) {
            $res = $bloomFilter->find($value) ? 'true' : 'false';
            echo $value.' : '.$res.';    ';
        }

        echo '<hr>';
        echo 'Delete:<br>';
        foreach ($testData['delete'] as $value) {
            $res = $bloomFilter->delete($value) ? 'true' : 'false';
            echo $value.' : '.$res.';    ';
        }

        echo '<hr>';
        echo 'After Delete:<br>';
        foreach ($testData['exists'] as $value) {
            $res = $bloomFilter->find($value) ? 'true' : 'false';
            echo $value.' : '.$res.';    ';
        }
        echo '<hr>';
        echo '<hr>';
    }

}

$testData = [
    'data' => ['123', 'abc', 'aaa', 'ssssssssssss', '中国'],
    'exists' => ['aaa', '中国', 'sss', '123', '任命'],
    'delete' => ['aaa', '中国']
];

$test = new Test();
echo '测试一 :<br>';
$test->run($testData, 1000, 2000);


echo '测试二 :<br>';
//这个出现的错误率,我们在删除aaa后,通过find查找,发现仍然会存在
$test->run($testData, 5, 10);

/**
 * 结果展示:
 * 测试一 :
 *
 * Original Data:
 * 123;    abc;    aaa;    ssssssssssss;    中国;
 *
 * Before Delete:
 * aaa : true;    中国 : true;    sss : false;    123 : true;    任命 : false;
 *
 * Delete:
 * aaa : true;    中国 : true;
 *
 * After Delete:
 * aaa : false;    中国 : false;    sss : false;    123 : true;    任命 : false;
 *
 *
 *
 * 测试二 :
 *
 * Original Data:
 * 123;    abc;    aaa;    ssssssssssss;    中国;
 *
 * Before Delete:
 * aaa : true;    中国 : true;    sss : false;    123 : true;    任命 : true;
 *
 * Delete:
 * aaa : true;    中国 : true;
 *
 * After Delete:
 * aaa : true;    中国 : false;    sss : false;    123 : true;    任命 : false;
 * 
 */
布隆过滤器Bloom Filter)是一种重要的数据结构,它用于快速判断一个元素是否存在于一个集合中。布隆过滤器的核心思想是通过一系列哈希函数来对元素进行多次哈希,然后将得到的哈希值映射到一个位数组中,并将对应的位置设为1。当需要判断一个元素是否存在时,同样对其进行多次哈希,检查对应位数组的值是否都为1,若都为1则可以确定元素可能存在;若存在一个0,则可以确定元素一定不存在。因此,布隆过滤器是一种基于概率的数据结构,可以高效地进行查找。 然而,布隆过滤器也存在一些问题。首先,由于多个不同的元素可能会哈希到相同的位上,因此在查询时可能出现误判,即判断一个元素存在时实际上并不存在。这种误判是由于多个元素共享了某一位的原因导致的。其次,布隆过滤器的特性决定了它无法支持元素的删除操作,因为删除一个元素可能会影响其他元素的判断结果,从而增加误判率。 要注意的是,计数布隆过滤器(Counting Bloom Filter)提供了一种实现删除操作的可能性,但并不能保证在后续查询时该值一定返回不存在。因此,不能说计数布隆过滤器支持删除,而是说计数布隆过滤器提供了实现删除的可能。 [3<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* [【海量数据处理】布隆过滤器BloomFilter](https://blog.csdn.net/qq_43727529/article/details/127180864)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 50%"] - *3* [Java --- redis7之布隆过滤器BloomFilter](https://blog.csdn.net/qq_46093575/article/details/130613434)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值