创建MapReduce程序，并在hadoop集群中运行

最新推荐文章于 2023-03-27 11:26:32 发布

封巍

最新推荐文章于 2023-03-27 11:26:32 发布

阅读量1.4k

点赞数

文章标签： hadoop intellij idea mapreduce maven

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/vitech/article/details/44809297

版权

关键词： MapReduce, hadoop 2.6.0, intellij IDEA, Maven

1、在intellij IDEA下创建maven项目

2、引入hadoop相关jar包

<properties>

<hadoop.version>2.6.0</hadoop.version>

</properties>

<dependencies>

<dependency>

<groupId>org.apache.hadoop</groupId>

<artifactId>hadoop-common</artifactId>

<version>${hadoop.version}</version>

</dependency>

<dependency>

<groupId>org.apache.hadoop</groupId>

<artifactId>hadoop-mapreduce-client-core</artifactId>

<version>${hadoop.version}</version>

</dependency>

<dependency>

<groupId>org.apache.hadoop</groupId>

<artifactId>hadoop-mapreduce-client-common</artifactId>

<version>${hadoop.version}</version>

</dependency>

<dependency>

<groupId>org.apache.hadoop</groupId>

<artifactId>hadoop-mapreduce-client-jobclient</artifactId>

<version>${hadoop.version}</version>

</dependency>

</dependencies>

3、创建MapReduce程序（程序的思想copy来的）

package cn.edu.kmust.cti;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

/**

* @author wei.feng@corp.elong.com

* @since 15-3-27

*/

public class Dedup {

public static class Map extends Mapper {

private static Text line = new Text();

@Override

protected void map(Object key, Text value, Context context)

throws IOException, InterruptedException {

//super.map(key, value, context);

line = value;

context.write(line, new Text(""));

}

}

public static class Reduce extends Reducer {

@Override

protected void reduce(Text key, Iterable values, Context context)

throws IOException, InterruptedException {

context.write(key, new Text(""));

}

}

public static void main(String[] args) throws Exception {

Configuration conf = new Configuration();

conf.set("mapred.job.tracker", "10.211.55.6:9001");

Job job = Job.getInstance(conf, "Data Deduplication");

job.setJarByClass(Dedup.class);

job.setMapperClass(Map.class);

job.setCombinerClass(Reduce.class);

job.setReducerClass(Reduce.class);

job.setOutputKeyClass(Text.class);

job.setOutputValueClass(Text.class);

FileInputFormat.addInputPath(job,

new Path("hdfs://hadoop1:9000/dedup_in"));

FileOutputFormat.setOutputPath(job,

new Path("hdfs://hadoop1:9000/dedup_out"));

System.exit(job.waitForCompletion(true) ? 0 : 1);

}

}

说明：

10.211.55.6 hadoop集群namenode的ip地址

dedup_in hadoop文件夹名称，MapReduce的输入路径

dedup_out hadoop文件夹名称，MapReduce的输出路径

4、打jar包

参考：http://bglmmz.iteye.com/blog/2058785

a、不能通过mvn package打包，原因：打入不了所依赖的第三方jar包等

intellij IDEA -> File -> Project Structure

-> OK

b、intellij IDEA -> Build -> Build Artifacts

-> Build / Rebuild

5、将程序传输到hadoop集群的namenode上

scp ./out/artifacts/HadoopDemo_jar/* root@10.211.55.6:/home/user/hadoop/dedup/

查看linux服务器

说明：

file1和file2为程序用到的数据文件，一会儿将上传到hadoop集群中

6、准备程序使用的数据

在hadoop集群的namenode节点，创建文件夹、上传文件

hadoop fs -mkdir /dedup_in

hadoop fs -mkdir /dedup_out

hadoop fs -put /home/user/hadoop/file1 /dedup_in/

hadoop fs -put /home/user/hadoop/file2 /dedup_in/

查看

7、运行程序

hadoop jar ./dedup/HadoopDemo.jar /dedup_in /dedup_out

执行过程

8、查看计算结果

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

封巍 CSDN认证博客专家 CSDN认证企业博客

码龄16年

14: 原创

44万+: 周排名

114万+: 总排名

8万+: 访问

: 等级

651: 积分

3: 粉丝

13: 获赞

8: 评论

15: 收藏

私信

关注

热门文章

分类专栏

最新评论

搭建tomcat9源码执行环境
CSDN-Ada助手: 非常感谢CSDN博主的分享，这篇博客对于想要搭建tomcat9源码执行环境的开发者来说非常有用。我觉得下一篇可以继续探讨如何使用tomcat9源码进行二次开发，可以涉及到如何添加自定义的servlet、filter等功能，相信会对其他用户有很大的帮助和启发。为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
spring boot使用logback实现多环境日志配置
Brandon Ingram 14: 按照这个方式配置，运行，为啥没有产生日志文件呢？
spring boot使用logback实现多环境日志配置
梁建華: 这里还有个地方要考虑，假如application.yml里面的配置是通过${myapp.log.level}从配置中心获取的话： log: level: ${myapp.log.level} 用<springProperty scope="context" name="logLevel" source="log.level">还是没法获取到实际的值
spring boot使用logback实现多环境日志配置
王溺码: 请问配置中心怎么才能根据环境变量动态加载呢
maven项目resources如何引用pom中定义的profiles参数
星辰_mya: maven项目resources如何引用pom中定义的profiles参数,学习了

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。