编写MapReduce程序

本文介绍了MapReduce的工作原理,包括Mapper和Reducer的角色。在MapReduce作业中,Mapper输出键值对,经过shuffle阶段到达Reducer。文章以WordCount为例,解释了Mapper如何处理文本行,生成<word, 1>的键值对,而键K1在实际应用中并未使用。为了实现WordCount,需要引入相应的Hadoop依赖包。" 107893016,9978211,Raspberry Pi 4B:SSH、VNC与串口配置指南,"['嵌入式开发', 'Linux', '物联网', '硬件配置', '树莓派']
摘要由CSDN通过智能技术生成

MapReduce就是一系列键值变换

一个完整的MapReduce作业,涉及三个要素:Mapper、Reducer的Driver,可以将处理过程描述成

{K1,V1} -> {K2,List<V2>} ->{K3,V3}

MapReduce Java API的Mapper基类以键值数据作为输入输出类型,其map()方法以输入的键值对作为参数。而用户只需编写处理单条记录的Mapper类,框架会负责将大数据集转化成键值对流的所有工作,因为MapReduce通过InputFormat和OutputFormat类提供了普通文件格式的实现,除特殊文件类型外,无须编写文件解析器。

在编写MapReduce程序的时候,每个Mapper仅仅输出一系列单个的键值对,它们通过shuffle方法才组合成键以及与之关联的值列表,作为reduce()方法的输入,因此map()和reduce方法之间有一个过程。如果是不太复杂的作业,可以把Mapper和Reducer类作为驱动程序的内置类,以简化代码部署。

实现WordCount

上面程序中的Mapper类,键K1即Object并没有得到实际使用。该作业会将TextInputFormat作为输入数据的格式,经过这种格式处理后,提供给Mapper的数据中,键指的是文件中的行号,值就是该行内容。对于输入源中的每行文本,mapper都会执行一次,每次会切分一行内容,然后使用Context对象以<word,1>的格式输出每个新的键/值,即K2/

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值