海量数据处理

最新推荐文章于 2023-06-02 18:42:44 发布

阿瞒有我良计15

最新推荐文章于 2023-06-02 18:42:44 发布

阅读量988

点赞数

分类专栏： # 数据结构文章标签：网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_56444564/article/details/128418275

版权

数据结构专栏收录该内容

22 篇文章 0 订阅

订阅专栏

本文探讨了在1GB内存限制下，如何利用哈希切割、位图等技术解决大规模数据问题，包括找出logfile中出现次数最多的IP、100亿整数中只出现一次的数字、两个文件的交集及特定条件下的整数计数。涉及方法有哈希映射、位图统计和布隆过滤器的应用。

摘要由CSDN通过智能技术生成

1.给一个超过100G大小的log file, log中存着IP地址, 设计算法找到出现次数最多的IP地址？

如何找到top K的IP？

思路：（哈希切割）

1.ip本身就是一个字符串，先把ip变成一个整数hash(ip)

2.文件的下标index = hash(ip) % 200 (把相同的字符串映射到同一个文件当中去)

3.读取每个文件的内容，统计每个文件当中，ip出现的次数。用hashmap

2.给定100亿个整数，设计算法找到只出现一次的整数？

思路：

解法一（哈希切割）

把数字哈希到对应的小文件当中，一样的数字肯定是在一起的，遍历每个小文件，统计数字出现的次数，此时，在内存中就能够知道，哪个数字出现了一次。

解法二（位图）

10 000 000 000 * 4 / 1024 / 1024 ~= 38,146.972M ~= 37.25G

100亿个整数用到位图大约10 000 000 000/8/1024/1024 ~= 1192.092M ~= 1G

解法三（使用一个位图）

和第二种解法一样，都能用0,1标识出现几次，这属于编码细节了，总体思路就是原来能表示8个数据，现在用俩个比特位标识。原来需要1个G,现在用这种方法得用2个G.

3. 给两个文件，分别有100亿个整数，我们只有1G内存，如何找到两个文件交集？

解法一：（哈希切割）

解法二：（位图）

1.和上边第一步一样，先把40G文件分成200份小文件

2.遍历A文件的第一个文件，将第一个文件数据读取出来，存放到bitSet当中

3.遍历B文件的第一个文件，每次读取一个数据，看bitSet中，之前是否存在

4.如果存在，就是交集

如何求交集，并集，差集？

4. 位图应用变形：1个文件有100亿个int，1G内存，设计算法找到出现次数不超过2次的所有整数

解法一（哈希切割）

解法二（位图）

用俩个bitSet,00代表0次，01代表1次，10代表2次，11代表多次，和第二题解法一样

5.给两个文件，分别有100亿个query，我们只有1G内存，如何找到两个文件交集？分别给出精确算法和近似算法

1.精确算法：

哈希切割，和第三题一样

2.近似算法：

1.把第一个文件当中的query映射到布隆过滤器中

2.读取第二个文件，每个query，都去布隆过滤器中查找【会存在误判】

3.因为存在误判，所以有可能这个数据存在，但是误判成了不存在。

阿瞒有我良计15

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
海量数据处理

和第二种解法一样，都能用0,1标识出现几次，这属于编码细节了，总体思路就是原来能表示8个数据，现在用俩个比特位标识。把数字哈希到对应的小文件当中，一样的数字肯定是在一起的，遍历每个小文件，统计数字出现的次数，此时，在内存中就能够知道，哪个数字出现了一次。用俩个bitSet,00代表0次，01代表1次，10代表2次，11代表多次，和第二题解法一样。2.遍历A文件的第一个文件，将第一个文件数据读取出来，存放到bitSet当中。3.遍历B文件的第一个文件，每次读取一个数据，看bitSet中，之前是否存在。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

阿瞒有我良计15 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。