找出重复的URL
机器hash或者文件hash,小文件里面的所有URL可以放到内存Set判重
Top100
理解成一个文件有100亿个URL,可能有重复,
找出出现频率前100的所有URL
也是hash到不同小文件或者hash到不同机器,
统计每个小文件的前100或者不同机器的前100,
利用小根堆找出总共的前100,
比如全部整数分成了3个小文件,
都找出了各自的前100,
先拿第一个小文件构建小根堆,然后其他小文件的前100分别与它比较
找出重复的URL
机器hash或者文件hash,小文件里面的所有URL可以放到内存Set判重
Top100
理解成一个文件有100亿个URL,可能有重复,
找出出现频率前100的所有URL
也是hash到不同小文件或者hash到不同机器,
统计每个小文件的前100或者不同机器的前100,
利用小根堆找出总共的前100,
比如全部整数分成了3个小文件,
都找出了各自的前100,
先拿第一个小文件构建小根堆,然后其他小文件的前100分别与它比较