这算是朋友给我试着面试,这之后就试试big data好了。如果依着别人的路走的话,的确没啥创新的。还不如路子野一点。宽度小点,深度扩展。
问题:提供了1000亿个64bit的数字,找出出现次数大于三次的数字,并排序。
解答:这个问题首先被数字吸引住。1000亿,64bit,那提供的数据非常大。常规单机一定处理不了。数据总的大小为1000*10^8*64bit=6400Gb=800GB.需要有800GB内存的电脑处理数据。显然我们可以采用多台计算机处理数据。假设一台计算机有16G的内存,那需要50台计算机。
现在空间复杂度解决了。然后应该是对数据进行处理。首先应该把数据传输到计算机。那应该怎么分配呢?这里我们肯定会均分数据然后每台计算机得到相应的数据。在分配过程中可能会有忽略的问题。现在先把整个问题所涉及的数据规模缩小到可接受的范围。假设输入数据为 0,0,0,1,2,3,4,5,6,7(这里给出数据要有特征性,因为问题涉及到出现三次,所以应该要有这个特点,我当时说了1-10,真是蠢),有3台计算机。此时如果随机均等分配,那么如果各个零分到不同的计算机中,那在各个计算机统计后还得在汇合后再次进行统计。那么随机均分的效率一定很差。这就意味着我们应该讲数据一致的尽可能的放到一台计算机中。如何将相同的数据快速分到相同的计算机中呢?可以想到的是利用哈希值。计算每个数字的哈希,最后取模50,结果就是对应的计算机编号。
接下来就是每个单机上运行的方法
for (int i = 0; i < NUMS; ++i) {
map.put(arr[i], map.get(arr[i]) + 1);
}
for (int i = 0; i < NUMS; ++i) {
if (map.get(arr[i]) > 3) {
heap.push(new Elem(arr[i], map.get(arr[i])));
}
}
计数用哈希,O(1)的时间复杂度,O(N)的空间复杂度。排序用堆排序,O(log N)的时间复杂度,O(N)的空间复杂度。
还有个小问题就是,假设数据在第一个容器满了,相同的数据不能放到容器中,但是两个容器总相同的数字都没有到达三次,如何解决这个问题?类似再哈希化。