模拟面试

jason_pot

于 2018-05-16 21:16:17 发布

阅读量112

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/jason_pot/article/details/80342704

版权

大数据专栏收录该内容

3 篇文章 0 订阅

订阅专栏

这算是朋友给我试着面试，这之后就试试big data好了。如果依着别人的路走的话，的确没啥创新的。还不如路子野一点。宽度小点，深度扩展。

问题：提供了1000亿个64bit的数字，找出出现次数大于三次的数字，并排序。

解答：这个问题首先被数字吸引住。1000亿，64bit，那提供的数据非常大。常规单机一定处理不了。数据总的大小为1000*10^8*64bit=6400Gb=800GB.需要有800GB内存的电脑处理数据。显然我们可以采用多台计算机处理数据。假设一台计算机有16G的内存，那需要50台计算机。

现在空间复杂度解决了。然后应该是对数据进行处理。首先应该把数据传输到计算机。那应该怎么分配呢？这里我们肯定会均分数据然后每台计算机得到相应的数据。在分配过程中可能会有忽略的问题。现在先把整个问题所涉及的数据规模缩小到可接受的范围。假设输入数据为 0，0，0，1,2,3,4,5,6,7（这里给出数据要有特征性，因为问题涉及到出现三次，所以应该要有这个特点，我当时说了1-10，真是蠢），有3台计算机。此时如果随机均等分配，那么如果各个零分到不同的计算机中，那在各个计算机统计后还得在汇合后再次进行统计。那么随机均分的效率一定很差。这就意味着我们应该讲数据一致的尽可能的放到一台计算机中。如何将相同的数据快速分到相同的计算机中呢？可以想到的是利用哈希值。计算每个数字的哈希，最后取模50，结果就是对应的计算机编号。

接下来就是每个单机上运行的方法

for (int i = 0; i < NUMS; ++i) {
  map.put(arr[i], map.get(arr[i]) + 1);
}

for (int i = 0; i < NUMS; ++i) {
  if (map.get(arr[i]) > 3) {
    heap.push(new Elem(arr[i], map.get(arr[i])));
  }
}

计数用哈希，O(1)的时间复杂度，O(N)的空间复杂度。排序用堆排序，O(log N)的时间复杂度，O(N)的空间复杂度。

还有个小问题就是，假设数据在第一个容器满了，相同的数据不能放到容器中，但是两个容器总相同的数字都没有到达三次，如何解决这个问题？类似再哈希化。

jason_pot

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
模拟面试

这算是朋友给我试着面试，这之后就试试big data好了。如果依着别人的路走的话，的确没啥创新的。还不如路子野一点。宽度小点，深度扩展。问题：提供了1000亿个64bit的数字，找出出现次数大于三次的数字，并排序。解答：这个问题首先被数字吸引住。1000亿，64bit，那提供的数据非常大。常规单机一定处理不了。数据总的大小为1000*10^8*64bit=6400Gb=800GB.需要有800GB...
复制链接

扫一扫

专栏目录