一千万条数据去重_大数据去重方案

面对大量数据的去重问题,本文探讨了使用MD5值进行去重、布隆过滤器的优缺点以及Bitmap的高效解决方案。还提到了hash分组、数据库索引和Redis在去重中的应用,提供了多种实用的大数据去重策略。
摘要由CSDN通过智能技术生成

数据库中有有一张表专门存储用户的维度数据,由于随着时间的推移,用户的维度数据也可能发生变化,故每一次查看都会保存一次记录。

现在需要对数据按用户分析,但当中有大量的重复数据,仅用数据库的等值去重明显不可行。

对数据内容求MD5值

MD5值的特点:

1.压缩性:任意长度的数据,算出的MD5值长度都是固定的。

2.容易计算:从原数据计算出MD5值很容易。

3.抗修改性:对原数据进行任何改动,哪怕只修改1个字节,所得到的MD5值都有很大区别。

4.强抗碰撞:已知原数据和其MD5值,想找到一个具有相同MD5值的数据(即伪造数据)是非常困难的。

根据MD5值的特点,对每条记录的维度数据内容计算MD5值,然后根据MD5值判断重复记录。

对数据入库之后利用sql直接查出重复数据,然后将重复数据移除或者标记。

至少在现阶段内存和CPU的执行效率在固定时间内是有限的,大量的数据的查重和去重处理不可能同时在内存中进行。就像外部排序算法和内部排序算法差别很大,遇到此类大量数据查重问题对算法进行设计是有必要的。

布隆过滤器

布隆过滤器是一种采用hash法进行查重的工具。它将每一条数据进行n次独立的hash处理,每次处理得到一个整数,总共得到n个整数。使用一个很长的数组表示不同的整数,每一次插入操作把这n个整数对应的位置的0设置为1(如果已经被设置为1则不变)。下次查找的时候经过同样的计算,如果这几个位置都是1则说明已经存在。

布隆过滤器的优点是使用方便,因为并不将key存放进内存所以十分节省空间,多个hash算法无关,可以并发执行效率

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值