bloomfilter:一个很长的二进制向量和一系列映射函数
它可以用于检索一个元素是否在一个集合中(在不一定在,不在肯定不在)
优缺点:
空间效率和查询效率远远超过一半算法;
有一定的误识别率和删除困难
布隆过滤器的应用
1.网络爬虫 判断某个URL是否已经被爬取过
2.K-V数据库 判断某个key是否存在
比如Hbase的每个Region中都包含一个BloomFilter,用于在查询时快速判断某个key在该region中是否存在。
3.钓鱼网站识别
浏览器有时候会警告用户,访问的网站很可能是钓鱼网站,用的就是这种技术
补充链接:
https://www.cntofu.com/book/186/thinkings/bloom-filter.md