海量数据去重（上亿数据去重）

最新推荐文章于 2024-08-13 08:49:24 发布

dengzong2136

最新推荐文章于 2024-08-13 08:49:24 发布

阅读量4.3k

点赞数

文章标签：数据库

原文链接：http://www.cnblogs.com/asd529735325/p/10216026.html

版权

在数据开发中，我们不难遇到重复数据的问题，搞过这类数据开发的同志肯定觉得，重复数据是真的烦人，特别是当数据量十分大的时候，如果我们用空间复杂度去换时间复杂度，会十分耗内容，稍不注意，就会内存溢出，那么针对如此庞大的数据量我们一般能怎么解决呢？下面分享几个方案：

方案一、根据一定规则分层去重：

海量的数据一般可以根据一定的规则分层，比如：针对海量的小区数据，可以把所在同一区域的小区去重，然后放入数据库。这样做大大减少了每次统计的数量和需要去重的数量，精确的颗粒度越细，相对的需要去重的数量也就越少。

方案二、主键去重：

根据一定的规则，你可以把需要去重的字段连成一个字符串，往一个redis里面放，或者往mysql一类的关系性数据库里面放置，以连成的字符串为key，其他字段为value。

方案三：set去重

这个方法是最常用的去重方法，把数据封装好，然后往一个set里面塞，但是如果涉及到的数据量比较大的话，就很可能out of menmory。

转载于:https://www.cnblogs.com/asd529735325/p/10216026.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

dengzong2136

关注关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

对海量数据去重方法，spark,flink,mr通用

weixin_39098944的博客

09-04

781

前言小强作为一名数据工程师，给予hadoop生态，经常会接到类似uv的去重统计。对于这种需求，一般的数据工程师撸起袖子直接干！一般情况下不会有问题。某一天，你公司突然业务发展发展起来，数据量慢慢暴涨，你会突然发现之前的count distinct去重经常oom或是龟速出数据。上来一股脑加内存！加！果断加！某一天你老板要你在原来按天的uv加一个月uv、年uv，这时你慌了。只会说“老板！加机器，内存不够！”。老板说：“算个uv你就想骗我钱？你明天不用来上班了！” 打不死的小强这时拼命百度，在网上找到许多神

Bitmap海量数据快速查找去重代码示例

01-20

我们可以用bitmap来解决，bitmap基本思想是一位表示一个整数，比如我们有6个数据： 1 7 3 1 5 6 4 假设bitmap容量为8，当插入7时 bit[7]=1，以此类推 bit[3]=1 bit[1]=1 bit[5]=1 …… bit[4]=1 这样我们查询5，...

参与评论您还未登录，请先登录后发表或查看评论

海量数据去重排序bitmap(位图法)在java中实现的两种方法

08-26

今天小编就为大家分享一篇关于海量数据去重排序bitmap(位图法)在java中实现的两种方法，小编觉得内容挺不错的，现在分享给大家，具有很好的参考价值，需要的朋友一起跟随小编来看看吧

海量数据去重

hanhan的博客

11-24

2822

海量数据去重一个文件中有40亿条数据，每条数据是一个32位的数字串，设计算法对其去重，相同的数字串仅保留一个，内存限制1G. 方法一：排序对所有数字串进行排序，重复的数据传必然相邻，保留第一个，去除后面重复的数字串即可。缺点是排序时间复杂度太高，并且显然是需要内排序+外排序一起的。优化的方法有扫雪机模型。方法二：哈希表 + 文件分割当然还有一种方法，取32位的前n位做一个哈希，然后把哈希值一样的数据串放到一个文件里面。然后每次将一个文件load到内存中，然后对这个文件中的数据做个排序 or 哈希去

海量数据去重-BitMap位图解决方案

最新发布

流月up的博客

08-13

313

海量数据去重-BitMap位图解决方案

亿万级海量数据去重软方法，spark/hive/flink/mr通用

u013289115的博客

03-31

4148

一、场景描述：二、常用方法1.优化sql2.借助第三方存储3.bitmap三、原理分析二、案例实战三、总结一、场景描述：小强作为一名数据工程师，给予hadoop生态，经常会接到类似uv的去重统计。对于这种需求，一般的数据工程师撸起袖子直接干！一般情况下不会有问题。某一天，你公司突然业务发展发展起来，数据量慢慢暴涨，你会突然发现之前的count distinct去重经常oom或是...

基于Hadoop和HBase的大规模海量数据去重.zip

03-13

在大数据处理领域，基于Hadoop和HBase的大规模海量数据去重是一个常见的需求。Hadoop是Apache开源项目，提供了一个分布式文件系统（HDFS）和MapReduce计算框架，旨在处理和存储海量数据。HBase是建立在Hadoop之上的...

海量数据去重的Hash与BloomFilter,bitmap1

08-03

在IT领域，尤其是在大数据处理和分布式系统中，数据去重是一项关键任务。本文将深入探讨两种常用的技术：哈希和布隆过滤器，以及它们在处理海量数据时的应用。哈希算法是数据去重的基础，它能够将任意大小的数据...

海量数据去重的hash，BloomFilter，bitmap

qq_42331828的博客

06-02

758

海量数据查找字符串的问题

海量数据处理算法总结

云计算?

08-14

331

前面我们说海量数据处理提到，从算法的角度去考虑处理海量数据。 1. Bloom Filter 【Bloom Filter】Bloom Filter（BF）是一种空间效率很高的随机数据结构，它利用位数组很简洁地表示一个集合，并能判断一个元素是否属于这个集合。它是一个判断元素是否存在集合的快速的概率算法。Bloom Filter有可能会出现错误判断，但不会漏掉判断。也就...

海量数据去重 oracle,海量数据去重

weixin_30768403的博客

04-10

342

前提通过id去重，而不是整条数据id由SnowFlake算法生成，参考之前的文章SnowFlake算法在数据链路中的应用需求在实时平台的各个环节中，由于网络或其他问题，有时会出现数据重复的情况，本质上是由于at least once保障机制造成的。例如flume agent之间的数据传输，如果网络不稳定，有可能出现src_agent发送数据超时而导致重发，但实际上dest_agent已经收到，造成...

海量数据去重的Hash、BloomFilter、bitmap

成长历程记录

11-20

1134

从海量数据中查询某个字符串是否存在？平衡二叉树增删改查时间复杂度为，100万个节点最多比较20次，10亿个节点最多比较30次；平衡的目的是增删改后，保证下次搜索能稳定排除一半的数据；通过比较保证有序，通过每次排除一半的元素达到快速索引的目的。散列表根据 key 计算 key 在表中的位置的数据结构；是 key 和其所在存储地址的映射关系； struct node { v...

海量数据去重的Hash、bitmap、BloomFilter、分布式一致性hash

qq_29750559的博客

06-05

1389

布隆过滤器是一种概率型数据结构，它的特点是高效地插入和查询，能确定某个字符串一定不存在或者可能存在；优缺点：布隆过滤器相⽐传统的查询结构（例如：hash，set，map等数据结构）更加⾼效，占⽤空间更⼩，但是确定是它返回的结果是概率性的，结果存在一定的误差，误差可控，同时不支持删除操作构成：位图（bit数组）+ n个hash函数。

海量数据去重方案-set/map/布隆过滤器(bitmap)

u012173846的博客

07-23

423

背景在使⽤word⽂档时， word如何判断某个单词是否拼写正确？⽹络爬⾍程序，怎么让它不去爬相同的url⻚⾯？允许有误差垃圾邮件（短信）过滤算法如何设计？允许有误差公安办案时，如何判断某嫌疑⼈是否在⽹逃名单中？控制误差假阳率（重点）缓存穿透问题如何解决？允许有误差需求从海量的数据中查询某个字符串是否存在 Set/Map C++标准库（STL）中的set和map结构都是采⽤红⿊树实现的，它增删改查的时间复杂度是 O(log2n) 对于严格平衡⼆叉搜索树

一千万条数据去重_大数据技术分析：删除和去重

weixin_35979889的博客

12-23

983

海量数据时，需要注意日志的增长，索引碎片的增加和数据库的恢复模式，特别是利用大容量日志操作，来减少日志的增长和提高数据插入的速度。对于大数据去重，通过一些小小的改进，比如创建索引，设置忽略重复值选项等，能够提高去重的效率。一，从海量数据中删除数据从海量数据表中删除一半数据，看似简单，使用delete命令，如果真这么干，SQL Server产生的事务日志暴增，估计会把服务器硬盘爆掉。数据库的恢复模式...

Java海量数据去重

06-19

在Java中处理海量数据去重是一个常见的挑战，特别是当数据量非常大时，传统的遍历和比较方法可能会变得效率低下。以下是一些常见的方法和技术来处理这种情况： 1. **哈希集合（HashSet）**：利用哈希表的特性，元素的唯一性保证了去重效果。将数据添加到HashSet中，重复的值不会被添加，且插入和查找操作的时间复杂度为O(1)。 ```java Set<String> uniqueItems = new HashSet<>(data); List<String> uniqueList = new ArrayList<>(uniqueItems); ``` 2. **流（Stream）API**：Java 8引入的流API提供了一种高效处理大量数据的方式，可以通过filter()和distinct()方法去重。 ```java List<String> deduplicatedList = data.stream() .distinct() .collect(Collectors.toList()); ``` 3. **布隆过滤器（Bloom Filter）**：这是一种空间效率很高的概率型数据结构，用于检测元素是否存在于集合中，虽然可能会有误报，但可以处理大规模数据且空间占用小。 4. **MapReduce/Spark/Flink等大数据处理框架**：对于分布式环境下的海量数据，可以使用这些框架提供的并行处理能力，通过分块、map阶段去重，再在reduce阶段合并结果。 5. **数据库查询优化**：如果数据存储在数据库中，可以利用索引或者适当的查询策略（如GROUP BY和DISTINCT）来减少数据传输和计算。