一千万条数据去重_大数据去重方案

最新推荐文章于 2024-07-22 21:51:13 发布

阿猴HOSEA

最新推荐文章于 2024-07-22 21:51:13 发布

阅读量802

点赞数

文章标签：一千万条数据去重

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_34209060/article/details/111901484

版权

面对大量数据的去重问题，本文探讨了使用MD5值进行去重、布隆过滤器的优缺点以及Bitmap的高效解决方案。还提到了hash分组、数据库索引和Redis在去重中的应用，提供了多种实用的大数据去重策略。

摘要由CSDN通过智能技术生成

数据库中有有一张表专门存储用户的维度数据，由于随着时间的推移，用户的维度数据也可能发生变化，故每一次查看都会保存一次记录。

现在需要对数据按用户分析，但当中有大量的重复数据，仅用数据库的等值去重明显不可行。

对数据内容求MD5值

MD5值的特点：

1.压缩性：任意长度的数据，算出的MD5值长度都是固定的。

2.容易计算：从原数据计算出MD5值很容易。

3.抗修改性：对原数据进行任何改动，哪怕只修改1个字节，所得到的MD5值都有很大区别。

4.强抗碰撞：已知原数据和其MD5值，想找到一个具有相同MD5值的数据(即伪造数据)是非常困难的。

根据MD5值的特点，对每条记录的维度数据内容计算MD5值，然后根据MD5值判断重复记录。

对数据入库之后利用sql直接查出重复数据，然后将重复数据移除或者标记。

至少在现阶段内存和CPU的执行效率在固定时间内是有限的，大量的数据的查重和去重处理不可能同时在内存中进行。就像外部排序算法和内部排序算法差别很大，遇到此类大量数据查重问题对算法进行设计是有必要的。

布隆过滤器

布隆过滤器是一种采用hash法进行查重的工具。它将每一条数据进行n次独立的hash处理，每次处理得到一个整数，总共得到n个整数。使用一个很长的数组表示不同的整数，每一次插入操作把这n个整数对应的位置的0设置为1(如果已经被设置为1则不变)。下次查找的时候经过同样的计算，如果这几个位置都是1则说明已经存在。

布隆过滤器的优点是使用方便，因为并不将key存放进内存所以十分节省空间，多个hash算法无关，可以并发执行效率

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
一千万条数据去重_大数据去重方案

数据库中有有一张表专门存储用户的维度数据，由于随着时间的推移，用户的维度数据也可能发生变化，故每一次查看都会保存一次记录。现在需要对数据按用户分析，但当中有大量的重复数据，仅用数据库的等值去重明显不可行。对数据内容求MD5值MD5值的特点：1.压缩性：任意长度的数据，算出的MD5值长度都是固定的。2.容易计算：从原数据计算出MD5值很容易。3.抗修改性：对原数据进行任何改动，哪怕只修改1个字节，所...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。