问题
问题很简单,shell的几个命令就可以搞定。
但是,如果输入文件很大不能一次载入内存呢?
文件分布在多个机器上呢?
文件可以全部载入内存
文件太大不能一次载入内存
对于此类问题,即大数据问题,可以使用MapReduce
两个MapReduce
第一个MapReduce: WordCount
- 把每个单词映射成Key-Value pair (Map)
- 把key相同的value加起来 (Reduce)
此外两步中间有一个shuffle,Hadoop中叫Partitioner,即怎么把中间结果分配到不同机器上去,这里使用HashPartitioner,具有相同hash的单词会分配到相同的Partitioner上。
第二个Sort by Count
- InverserMapper :把key-value 倒过来
TotalOrderPartitioner 按次数排序
单词做hash然后存到不同的shard中(磁盘文件,这样可以对每个shard单独进行sort,最后再merge),这里使用10个shard,那么10GB的数据,每个shard就是1GB数据,然后对每个shard做wordcount(此时可以在内存中做了,每个shard大小小于4GB),最后merge 10个shard到一个output文件(多路归并)。
N-way merge using heap
- 取这N个shard的最大元素,做成堆
- pop head 就可以得到最大的元素,假设它输入第i个shard
- 然后第i个shard再提供一个元素,插入堆,返回第2步。
注意,有可能某个shard提前都用完了,此时堆的大小就变小了。
多机求解
把每个机器看成一个shard,思路同上