题目
有一个包含20亿个全是32位整数的大文件,在其中找到出现次数最多的数
要求
内存限制2GB
思路
使用哈希表进行存储的话,key需要4B,value需要4B,20亿个数需要16GB,2亿个数需要1.6GB
把包含20亿个数的大文件哦那个过哈希函数(假设哈希函数足够优秀)分成16个小文件(由内存限制决定),根据哈希函数的性质,同一种数不会分到不同的小文件上,同时每个小文件的数不会大于2亿种。
接下来就通过哈希表进行统计,最后选出16个小文件中各自的第一名即可。
题目
有一个包含20亿个全是32位整数的大文件,在其中找到出现次数最多的数
要求
内存限制2GB
思路
使用哈希表进行存储的话,key需要4B,value需要4B,20亿个数需要16GB,2亿个数需要1.6GB
把包含20亿个数的大文件哦那个过哈希函数(假设哈希函数足够优秀)分成16个小文件(由内存限制决定),根据哈希函数的性质,同一种数不会分到不同的小文件上,同时每个小文件的数不会大于2亿种。
接下来就通过哈希表进行统计,最后选出16个小文件中各自的第一名即可。