MapReduce:获取的urls集
- 输入:<url,CrawlDatum>, 按主机分块, 按hash排序
- Map(url,CrawlDatum) $\to$ <url,FetcherOutput>
- 通过多线程、异步map实现
调用已有的Nutch协议插件
- 通过多线程、异步map实现
- FetcherOutput: <CrawlDatum, 网页内容Content>
- Reduce()是同一化
- 输出: 两种文件: <url,CrawlDatum>, <url,Content>
MapReduce:获取的urls集