BloomFilter（大数据去重）+Redis（持久化）策略

最新推荐文章于 2024-07-24 14:07:28 发布

Joker_Coding

最新推荐文章于 2024-07-24 14:07:28 发布

阅读量2.7w

点赞数 9

分类专栏：随手笔记文章标签：大数据

本文链接：https://blog.csdn.net/qq_18495465/article/details/78500472

版权

本文介绍了如何使用BloomFilter进行大数据去重，并结合Redis的Bitmap实现持久化，以解决ElasticSearch去重导致的性能问题。讨论了BloomFilter的原理、优缺点以及关键公式，最后提供了结合Redis的实现方案。

摘要由CSDN通过智能技术生成

之前在重构一套文章爬虫系统时，其中有块逻辑是根据文章标题去重，原先去重的方式是，插入文章之前检查待插入文章的标题是否在ElasticSearch中存在，这无疑加重了ElasticSearch的负担也势必会影响程序的性能！

简介：布隆过滤器实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法，缺点是有一定的误识别率和删除困难。
原理：当一个元素被加入集合时，通过K个散列函数将这个元素映射成一个位数组中的K个点，把它们置为1。检索时，我们只要看看这些点是不是都是1就（大约）知道集合中有没有它了：如果这些点有任何一个0，则被检元素一定不在；如果都是1，则被检元素很可能在。
优点：相比于其它的数据结构，布隆过滤器在空间和时间方面都有巨大的优势。布隆过滤器存储空间和插入/查询时间都是常数（O(k)）。而且它不存储元素本身，在某些对保密要求非常严格的场合有优势。
缺点：一定的误识别率和删除困难。
结合以上几点及去重需求（容忍误判，会误判在，在则丢，无妨），决定使用BlomFilter。

位数组和k个散列函数