大数据去重:Bitmap和布隆过滤器

1. 用户关注链问题

场景描述:在某场景下有一个用户关系链,比如A关注了B,然后B关注了C,然后用户B知道自己被谁关注,也知道他关注了谁。假如说将这个信息放在统一的数据库中,然后用户查询的时候每次去遍历,那么就会对数据库造成非常大的负担,而且在一个亿级用户系统中这样的时间延迟是不可接受的。这种情况下我们可以为每个用户维护两个集合:一个是他关注的人,一个是他被谁关注了。这里也会出现一个问题:假如A关注了B,那么一次关注就要写两个数据,一个是A的关注列表,一个是B的被关注列表,如果说中间由于网络或者其他某些原因导致其中一个写操作丢失,后面要怎么排查出那个丢失的写操作?

解决方案:使用归并排序来处理,内排外排都行。假定A关注了B,那么就会产生两个数据(A,B)、(A,B),一个放在A的关注列表中,一个放在B的被关注列表中,他们都是成对出现。我们每隔一段时间就批量将所有用户的关注列表和被关注列表读取出来,然后进行归并排序,只要在归并的过程中出现了成对的数据,就把成对的数据抛弃掉,这样一直归并下去最后剩下的就是不成对的数据。最后我们根据这个不成对的数据去把它们补全即可。

2. Bitmap

场景描述:在2.5亿个整数中找出不重复的整数,注,内存不足以容纳这2.5亿个整数。

解决方案1:采用2-Bitmap(每个数分配2bit,00表示不存在,01表示出现一次,10表示多次,11无意义)进行,共需内存2^32 * 2 bit=1 GB内存

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Redis提供的Bitmap可以作为布隆过滤器所需要的位数组的基础。布隆过滤器是一种数据结构,用于判断一个元素是否属于一个集合,具有高效的添加和查询操作。布隆过滤器使用一系列的哈希函数将元素映射到位数组中的多个位置,通过检查这些位置是否被置为1来判断元素是否存在。Redis的Bitmap就是一种位数组,可以将布隆过滤器的位数组存储在其中。Bitmap提供了位操作的功能,可以用来设置和查询位的状态。通过使用Bitmap,我们可以方便地实现布隆过滤器的添加和查询操作。因此,Redis的Bitmap正好适用于实现布隆过滤器的功能。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [借助Redis Bitmap实现简单的布隆过滤器](https://blog.csdn.net/huangchonghai/article/details/120340977)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* [玩转Redis-Redis中布隆过滤器的使用及原理](https://blog.csdn.net/u010887744/article/details/108700911)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值