hadoop编写MapReduce例子(附有代码)

开发环境:hadoop2.6.5, jdk1.8.  ubuntu14系统

 

1.在本地写好代码(eclipse写的,当时没用maven,直接把jar引到程序里了)

2.打成jar包(eclipse右键项目,点击export,选择jar包类型),打jar包的时候记得引入程序入口类,以及不加入代码依赖的jar包

3.在集群的master节点上,使用hadoop fs -ls -R /查看hdfs中的文件列表

4.在hdfs上新建文件夹data,hadoop fs -mkdir -p /user/data

5.将数据传到data文件夹中,hadoop fs -put ddd /user/data

6.将程序打好的jar包(hadoopDemo.jar)上传到master节点上

7.执行hadoop jar  hadoopDemo.jar /user/data /user/out1(out1是输出文件的目录)

程序执行成功之后的结果:

8.命令hadoop fs -cat /user/out1/part-r*查看代码执行结果

这个例子是key是0-9的随机数,value是0-40的随机数(用random随机生成的)。然后找出来每个key对应的value的最大值

代码和数据:https://download.csdn.net/download/cuicanxingchen123456/10741216

 

 

Hadoop编写MapReduce程序是指使用Hadoop框架来实现MapReduce算法。MapReduce是一种分布式计算模型,它将大规模数据集分成小的数据块,然后在分布式计算集群上并行处理这些数据块。MapReduce程序由两个部分组成:Map和Reduce。 Map阶段:Map阶段将输入数据分成小的数据块,然后对每个数据块进行处理,生成键值对。Map阶段的输出结果是一个键值对列表。 Reduce阶段:Reduce阶段将Map阶段输出的键值对列表进行合并,生成最终的输出结果。Reduce阶段的输出结果是一个键值对列表。 编写MapReduce程序的步骤如下: 1. 定义Map函数:Map函数将输入数据分成小的数据块,然后对每个数据块进行处理,生成键值对。 2. 定义Reduce函数:Reduce函数将Map函数输出的键值对列表进行合并,生成最终的输出结果。 3. 定义输入格式:定义输入数据的格式,例如文本文件、CSV文件等。 4. 定义输出格式:定义输出数据的格式,例如文本文件、CSV文件等。 5. 配置Hadoop环境:配置Hadoop环境,包括Hadoop的安装、配置、启动等。 6. 编写MapReduce程序:编写MapReduce程序,包括Map函数、Reduce函数、输入格式、输出格式等。 7. 运行MapReduce程序:将编写好的MapReduce程序提交到Hadoop集群上运行。 8. 查看输出结果:查看MapReduce程序的输出结果,进行调试和优化。 以上就是Hadoop编写MapReduce程序的基本步骤。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值