海量数据处理问题

最新推荐文章于 2022-10-06 23:55:53 发布

superwangxinrui

最新推荐文章于 2022-10-06 23:55:53 发布

阅读量384

点赞数 3

分类专栏：数据结构

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/superwangxinrui/article/details/81876523

版权

数据结构专栏收录该内容

12 篇文章 0 订阅

订阅专栏

1 给一个超过100G大小的log file,log 中存着ip地址，设计算法找到出现次数最多的ip地址

首先看到100G的日志文件，我们的第一反应是太大了，根本加载不到内存，更别说设计算法了，那么怎么办呢？既然装不下，那么我们是不是可以将其切分开，一小部分一小部分轮轮流进入内存呢，也就是所谓的分治法。如果我们将其分为1000个文件，那么每个文件也就是100M左右，将每个文件依次载入内存，利用 id=ip%1000 将ip地址相同的映射到同一个文件中，依次统计每个文件中ip地址的个数，个数最多的那个文件里存放的ip即为出现次数最多的ip。

2 与上题条件相同，如何找到 top k的ip

在上题中，我们已经统计出每个ip出现的次数<ip , 次数>, 我们可以建个数目为k的小堆，然后键值对中次数依次和堆顶元素的次数进行比较，如果比堆顶元素大，则替换堆顶元素，重新调整为小堆，直到遍历完。堆中存在的ip即为top k的ip。

3 给定100亿个整数，设计算法找到只出现一次的整数

10000000000个整数，一个整数4个字节，所以是40000000000亿个字节，也就是40000000K=40000M=40G,所以大约是40G,一次加载到内存中显然是不可能的。我想到两个办法。

方法一：哈希法

首先，将这些数据分为100分，那么，每个文件也就是大约40M，然后利用哈希法将值相同的元素分到相同的文件中，最后统计文件中有一个元素的文件，文件中存的整数及就是出现一次的整数。

方法二：位图变形

三种状态：00表示不存在，01表示出现一次， 10表示出现多次。

同样，将数据分批载入内存，位图初始状态为全0，依次遍历数据，出现一次将对应位图改为01，再出现将位图置为10，位图中为01的即为出现一次的整数。

4 给两个文件，分别有100亿个整数，我们只有1g内存，如何找到两个文件的交集。

哈希切分法（精确算法）：对两个文件分别进行哈希切分，分成100个小文件，每个文件中是相同整数，两个文件中下标相同的小文件即为两个文件的交集。此算法的时间复杂度为o(n)。

位图法（布隆过滤器，近似算法，因为布隆过滤器有可能一个位代表多个key）：将第一文件中的数字映射到位图中，也就是大约1.25G,然后拿第二个文件中的数字一一映射，如果位图中为1的即为交集。此算法的时间复杂度为o(n)。

5 1个文件有100亿个int,1G内存，设计算法找出出现次数不超过2次的所有整数。（思路类似第三题）

6 如何扩展BloomFilter使得它支持删除元素的操作

我们都知道，布隆过滤器的一位有可能对应多个key,所以，删除有可能影响到其它元素，所以如果想让其支持删除，可采用引用计数的思想，当引用计数为0时再允许删除。

superwangxinrui

关注

3
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
海量数据处理问题

1 给一个超过100G大小的log file,log 中存着ip地址，设计算法找到出现次数最多的ip地址首先看到100G的日志文件，我们的第一反应是太大了，根本加载不到内存，更别说设计算法了，那么怎么办呢？既然装不下，那么我们是不是可以将其切分开，一小部分一小部分轮轮流进入内存呢，也就是所谓的分治法。如果我们将其分为1000个文件，那么每个文件也就是100M左右，将每个文件依次载...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。