海量数据问题总结

最新推荐文章于 2022-02-27 14:48:05 发布

Jayicee

最新推荐文章于 2022-02-27 14:48:05 发布

阅读量257

点赞数

分类专栏：查漏补缺文章标签： java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/SCUTJAY/article/details/105230282

版权

查漏补缺专栏收录该内容

6 篇文章 0 订阅

订阅专栏

文章目录

海量数字里，找出topK
海量数据里，返回出现频率最高的topK
两个文件的数据，找出相同的部分
在海量数据中快速定位一个数字是不是在里面
海量数据中找到所有出现次数大于2次的

海量数字里，找出topK

找出topK，这个很明显想到可以用最大堆去做；而数据量过大的话，可以分而治之，就是把这些数据划分到多个文件里面，对每个文件找出topK，最后再合并到一起，找出总的topK
至于怎么划分，可以使用一些哈希算法来划分，或者因为这里这是比较值的大小，所以直接进行机械划分也是可以的。

海量数据里，返回出现频率最高的topK

同样还是用最大堆，但是这个大不再是数值的大，而是频率的大，所以可以使用一个HashMap，value来记录出现的频率。当然如果数据太大的话，还是可以使用分而治之的方法，可以使用一些哈希算法去进行分组，保证相同的数据在一个文件里面。最后再进行归并
另外，如果

两个文件的数据，找出相同的部分

如果是数字，可以使用一个BitMap来做，就是一个比特可以标记一个数字，比如说0代表没有出现，而1代表出现过。那么首先可以对其中一个文件进行标记，把标记完的BitMap再拿去第二个文件中去比较，进而就能找到相同的部分了。当然这个过程依然也是可以使用分而治之的方法

如果是字符串的话，可以考虑使用布隆过滤器，这个其实用现成的，Google不是有个Guava工具么，它里面就有BloomFilter类，可以做这个事情。

在海量数据中快速定位一个数字是不是在里面

思路也一样，用bitMap

海量数据中找到所有出现次数大于2次的

也可以使用BitMap来做，用两个比特标识一个数字的出现情况，比如说00表示从未出现过，01表示出现过一次，10表示出现过两次，11表示出现两次或以上的。那么对所有数据标识完之后，找到那些标记位位11的就是结果了

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Jayicee CSDN认证博客专家 CSDN认证企业博客

码龄5年

65: 原创

31万+: 周排名

165万+: 总排名

6万+: 访问

: 等级

1379: 积分

26: 粉丝

58: 获赞

15: 评论

181: 收藏

私信

关注

热门文章

分类专栏

闲聊
查漏补缺 6篇
消息队列 1篇
微服务 3篇
Zookeeper 3篇
Web框架 5篇
Java虚拟机 3篇
基础 2篇
MongoDB 2篇
Tomcat 2篇
Redis 10篇

最新评论

再谈MySQL(三):该不该使用join?如何优化join?
weicheck: 驱动表第一次不一定是全表扫描吧，如果 t1.id 和 t2.id 上都有适当的索引： MySQL 可能会选择使用这些索引来执行连接操作
PV操作简介
Oldtiger2000: “P操作就是，将进程从运行态转化为阻塞态，直到它被另一个进程唤醒 V操作就是，将一个处于阻塞态的进程唤醒” 【疑】 1、PV操作是對信號量S的操作，爲什麽這裏的表述變成了對進程狀態的操作？(我google過全網，似乎這樣表述的是獨此一家，可否給出出處？) 2、我是比較認可這個表述的。最起碼這個表述把PV操作與進程狀態轉換有機連接了起來，而其它的表述都忽略了PV操作與進程狀態轉換的關係。但問題是，PV操作改變了哪個進程的狀態？是執行PV操作的進程，還是其它的進程？這個表述對此有點含糊不清
再谈MySQL(二):唯一索引与缓存区
lca1rus: 逻辑有问题吧，可以更改改
ConcurrentHashMap 1.7与1.8的区别总结
德鲁伊精灵: 计算size的方法1.8不是采用直接查baseCount的方式去获取条数的。它是通过合并CellCount数组+baseCount来计算的。
各大微服务注册中心简单对比：ZooKeeper、Eureka、Consul 、Nacos
Style-MJ: 不错，写得很好

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。