1给定a,b 二个文件,各存放50亿各url 每个url各存64个字节,内存限制是4g,找出a,b 文件共同的url
哈希表
2有1亿个数,随机分布,求前一千个最大的数,内存限制为100兆
分块
3有2.5亿个正整数中找出不重复的整数。内存2.5g
为每个整数设置标志位,有2位组成
00 01 10 11
分别表示没出现过,出现过1次,出现过多次,不考虑
分别遍历这些整数
4有40亿个邮件地址,没排过序,然后再给一个邮件地址,如何判断这个地址在不在这40亿个邮件地址之中
哈希表
5海量数据分布在100台电脑中,想办法高效的统计出这批数据的top10