今天看左神讲的这个题目
首先考虑如何计数,也就是每一个url出现了多少次呢?
- 使用布隆过滤。(还没学)
- 使用hash函数进行分流,将相同的hash值取模的url放到同一个文件中。
- 每一个url对应一个字符串hash。
- 这个字符串hash对一个数取模
- 那么这样同一种url就会进入一个文件中去。
第二个问题,统计前100:
- 先把100亿条数据使用hash函数进行分流,划分成不同文件。
- 然后对于每一个文件建堆:
- 进行一个hashMap的统计,url作为key, 词频作为value。
- 按照value进行排序。
- 把排好的内容放入磁盘中。
- 最后进行统计:
- 首先进行建堆:从每个文件中读取第一条数据,然后将他们从文件中删除,把<文件名,文件数据> 存入大根堆中。
- 然后在cnt < N 且 堆不空时:
- 堆顶加入答案。
- 堆顶对应的文件,如果不空,读取第一条数据加入堆,并且删除第一条数据。
- 知道满足统计了N条,或者堆为空(没有这么多种的url)的时候返回统计的答案。
这里记录下一些其他问题
- 文件统计之后是放在磁盘中,还是存储在内存中呢?
- 放在磁盘中,因为建立就算统计完成之后,url的数量依旧很多,可能到达10亿条。
- 如何更少的读取磁盘?
- 败者树(还没学)
详细代码请转到
这里写一下测试类与结果
package leetcode.categories.bigData;
import javafx.util.Pair;
import java.util.*;
public class Main {
public static void main(String[] args) {
// 划分文件,得到划分好的文件
Division div = new Division();
HashMap<String, List<String>>files = div.divInM();
// 为每个文件建立堆
BigHeap bg = new BigHeap(files);
// 在内存中建立每一个文件的heap
HashMap<String, Queue> mp = new HashMap<>();
for (String file : files.keySet()) {
Queue que = bg.build(file);
mp.put(file, que);
}
// 进行统计
CountTopN cnt = new CountTopN(3);
List<Pair<String, Integer>> ans = cnt.workInMemory(mp);
for (Pair<String, Integer> p : ans) {
System.out.println(p.getKey() + " " + p.getValue());
}
}
}
获取前三名