三种方式去重

最新推荐文章于 2024-07-30 08:00:00 发布

扶我起来继续学习

最新推荐文章于 2024-07-30 08:00:00 发布

阅读量997

点赞数

分类专栏： java 文章标签： redis 布隆过滤器 HashSet

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42836388/article/details/125105541

版权

java 专栏收录该内容

21 篇文章 0 订阅

订阅专栏

本文介绍了四种数据去重方法：Java HashSet、Redis Set、布隆过滤器及其工作原理。布隆过滤器在内存占用和性能上具有优势，但存在误判可能，适用于大量数据的去重场景，常用于网页URL去重、垃圾邮件过滤等。

摘要由CSDN通过智能技术生成

1.HashSet

使用java中的HashSet不能重复的特点去重。优点是容易理解。使用方便。
缺点:占用内存大，性能较低。

2.redis 去重

使用Redis的set进行去重。优点是速度快(Redis 本身速度就很快)，而且
去重不会占用爬虫服务器的资源，可以处理更大数据量的数据爬取
缺点:需要准备Redis服务器，增加开发和使用成木

3.布隆过滤器（BloomFilter）

使用布隆过滤器也可以实现去重。优点是占用的内存要比使用HashSet
要小的多，也适合大量数据的去重操作。
缺点:有误判的可能。没有重复可能会判定重复，但是重复数据一定会
判定重复。

4.布隆过滤器（BloomFilter）

原理：
布隆过滤器需要的是一个位数组(和位图类似)和K个映射函数(和Hash表类似)，在初始状态时，对于长度为m的位数组array,它的所有位被置0。二进制存储的数据是0或1，默认是0。实际上是一个很长的二进制向量和一系列随机映射函数，0代表不存在某个数据，1代表存在某个数据。
用途：
主要用于处理数据的过滤，减少磁盘 IO 或者网络请求。例如：网页URL 去重（网址进行过滤，已经存在布隆中的网址，不在读取；）、垃圾邮件识别（垃圾邮件过滤，发送方地址命中布隆过滤器的黑名单，则认定为垃圾邮件。）、黑名单、查询加速【比如基于KV结构的数据】、集合元素重复的判断、解决Redis缓存穿透问题；等场景。
[更多详细]

扶我起来继续学习

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。