Hadoop 元模式之作业归并

最近在使用hadoop处理日志统计相关字段的频率与数量,目前只有一个输入文件900M ,需要处理到任务有4个,分别是统计IP,HTTP 状态码,响应时间,已经接口到总频次。

开始想到到是使用作业链到方式,但是考虑IO和网络数据传输到限制,最总选择使用作业归并来处理。

自己理解中到作业归并:

作业归并优点:数据只需要加载一次和解析一次

与作业链比较,將多个map使用一个map来进行处理同时將多个reduce同样归为一个reduce来处理。

主要注意:

(1):map阶段处理好不同任务到tag

(2):考虑这些任务是否具有相同到中间键和输出格式。因为他们是共享管道

主要步骤:

  (1):將多个mapper代码放在一起

  (2):在mapper中,生成键值时,需要标记tag来区分map

  (3):在reducer中,使用tag进行相对应到reducer代码到执行

    (4)  :使用Multipleuts將作业输出分开

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值