1、有10个文件,每个文件1G,每个文件的每一行存放的都是用户的query,每个文件的query都可能重复。要求你按照query的频度排序。
答案:1)遍历10个文件的每个query,取t = hash(query)%10,将这个query存入第t个文件。这一步结果将相同query保存至同一个文件中,并且每个文件的大小约为1g
2)分别对每个文件,找出每个query的个数,使用hashmap(query,query_count),遍历文件query,查找map,query_count自增1
3)对每个文件,每个query进行排序,可以用快排或者堆排序
4)利用归并排序思想,对10个文件归并,就是取10个文件的堆顶最大,比较,然后输出最大的