海量数据处理十题

最新推荐文章于 2022-10-06 23:55:53 发布

无聊星期三

最新推荐文章于 2022-10-06 23:55:53 发布

阅读量921

点赞数

分类专栏：数据结构文章标签：海量数据哈希

本文链接：https://blog.csdn.net/Boring_Wednesday/article/details/80445104

版权

数据结构专栏收录该内容

10 篇文章 0 订阅

订阅专栏

题目
- 思考方向（很重要）
- 解题思路

题目

1）给⼀一个超过100G大小的log ﬁle, log中存着IP地址, 设计算法找到出现次数最多的IP地址？
2）与上题条件相同，如何找到top K的IP？如何直接用Linux系统命令实现？
3）给定100亿个整数，设计算法找到只出现一次的整数？
4）给两个文件，分别有100亿个整数，我们只有1G内存，如何找到两个文件交集？
5）1个文件有100亿个int，1G内存，设计算法找到出现次数不超过2次的所有整数？
6）给两个文件，分别有100亿个query，我们只有1G内存，如何找到两个文件交集？分别给出精确算法和近似算法
7）如何扩展BloomFilter使得它支持删除元素的操作？
8）如何扩展BloomFilter使得它支持计数操作？
9）给上千个⽂文件，每个文件大小为1K~100M。给n个词，设计算法对每个词找到所有包含它的文件，你只有100K内存
10）有一个词典，包含N个英文单词，现在任意给一个字符串，设计算法找出包含这个字符串的所有英文单词

思考方向（很重要）

关于海量数据的题目，有两个基本方向：

首先看是否可以通过特殊的数据结构解决，比如位图，堆，哈希等，无法解决，思考另一个方向
能否通过切割数据，再通过方向1来进行解决，因为对于海量数据来说，往往直接解决有困难的地方都是数据过多空间不够问题，我们可以思考是否能够通过切割结合数据结构来解决

切割数据其实就是分治思想，分治即当一个问题无法一次结局的时候，切分成子问题进行解决。
二叉树的递归遍历就是一种典型的分治；快速排序的快速切割数组也是分治；斐波那契数列的递归求解也是分治；生活中当我们遇到困难的时候，可以将其分解成很多小问题进行依次解决；写代码无从下手的时候，可以切割成若干个功能函数一个一个写，这也是分治。
分治很常见，可以说无处不在。

解题思路

1）查找出现次数最多的IP地址

给⼀一个超过100G大小的log ﬁle, log中存着IP地址, 设计算法找到出现次数最多的IP地址？

分治 + 哈希

将数据分割成若干的小份，但不是均分，可以按照某一个哈希函数来切割，将映射值为同一个数的IP分到一个文件去，这样相同的IP会出现在同一个文件内。分的文件个数不能太少，因为难免会出现某一个文件出现的地址多的情况，（我们并不是均分，当均分为100份的话，平均下来也是一个文件1G，如果出现该情况，可能会出现一个log file有2个G甚至更多，有可能存不下），为了避免这种情况，分的份数合适，即使出现几个文件较大，也不会太大。
对每个文件依次处理，每个文件用哈希表进行映射，哈希表要构造成key-value模型，也就是映射的位置不止存IP地址（key），还要跟一个出现的次数（value），找出出现次数最多的IP并保存。
将每个文件中出现次数最多的IP地址，放在一起再选出出现次数最多的IP，此问题解决。

本题的关键在于：使用同一个哈希函数分割IP时，相同的IP只会映射到同一个文件。

2）查找出现次数在前K的IP地址

与上题条件相同，如何找到top K的IP？如何直接用Linux系统命令实现？

分治 + 哈希

同上题一个思路，将文件分割成若干小份。
同上题思路一样，用key-value哈希表进行映射，不同的地方在于接下来的处理，针对每个文件的哈希表，将其中的value当做要比较的值，运用Top K解决方法，也就是堆来得到该文件内前K个出现次数最多的IP
将所有文件的出现次数前K个IP地址放在一起，再找出前K个IP地址，就是所要求的IP，至此问题解决。

关于堆实现Top K：有一堆海量数据，需要求最大的K个数，排序太耗时间，这个时候用的即堆，建一个元素个数为K个的堆，由于要找最大的N个数，所以要建小堆（没错就是小堆），然后依次从文件读取数据，当读入数据大于堆顶元素，就取代堆顶元素，然后重新调整为小堆，直至元素读取完成。

Linux命令：不会，还没学，学了补上

3）找只出现一次的整数

给定100亿个整数，设计算法找到只出现一次的整数？

位图扩展

整数再多，也无非42亿9000万个，在这里哈希显然是不行的，耗费的空间太多，此时，位图的优势就体现出来了，节省空间，所以此题可以用特殊的数据结构，也就是位图解决。

看图简单了解位图
位图原理示意图

关于位图：点击此处了解更多关于位图的信息
我们可以算一笔账：

42亿9000万个位 ≈ 5亿个字节
1byte = 8bit
1KB = 1024byte
1MB = 1024KB
1GB = 1024MB
10的9次字节约为1G，5亿个字节约为0.5G = 512mb

也就是说用位图实现这个题完全可以，再合适不过了，但是一个位不足以解决问题，如果一个数没出现为0，出现一次可以置1，出现两次就无法表示，置1和置0都不合适，所以此题用两位来存一个数的信息。
从头到尾遍历一边数，将其信息存入位图，没出现为00，出现一次为01，出现两次为10，出现三次为11，最后只需要打印信息为01的数即可。