PNP : Work Cound & Frequence

问题

这里写图片描述

问题很简单,shell的几个命令就可以搞定。

但是,如果输入文件很大不能一次载入内存呢?
文件分布在多个机器上呢?

文件可以全部载入内存

这里写图片描述

文件太大不能一次载入内存

对于此类问题,即大数据问题,可以使用MapReduce

这里写图片描述

两个MapReduce
第一个MapReduce: WordCount

  • 把每个单词映射成Key-Value pair (Map)
  • 把key相同的value加起来 (Reduce)

此外两步中间有一个shuffle,Hadoop中叫Partitioner,即怎么把中间结果分配到不同机器上去,这里使用HashPartitioner,具有相同hash的单词会分配到相同的Partitioner上。

第二个Sort by Count

  • InverserMapper :把key-value 倒过来
  • TotalOrderPartitioner 按次数排序

    这里写图片描述

单词做hash然后存到不同的shard中(磁盘文件,这样可以对每个shard单独进行sort,最后再merge),这里使用10个shard,那么10GB的数据,每个shard就是1GB数据,然后对每个shard做wordcount(此时可以在内存中做了,每个shard大小小于4GB),最后merge 10个shard到一个output文件(多路归并)。

N-way merge using heap

这里写图片描述

  1. 取这N个shard的最大元素,做成堆
  2. pop head 就可以得到最大的元素,假设它输入第i个shard
  3. 然后第i个shard再提供一个元素,插入堆,返回第2步。

注意,有可能某个shard提前都用完了,此时堆的大小就变小了。

多机求解

把每个机器看成一个shard,思路同上

这里写图片描述

这里写图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值