windows Hadoop开发环境搭建及远程提交

最新推荐文章于 2024-06-03 14:07:42 发布

agent_x

最新推荐文章于 2024-06-03 14:07:42 发布

阅读量3.9k

点赞数 2

分类专栏： hadoop 文章标签： hadoop idea windows maven

本文链接：https://blog.csdn.net/agent_x/article/details/78664205

版权

本文详述了在Windows上搭建Hadoop开发环境，包括使用IntelliJ IDEA创建maven和java项目，配置远程提交至Hadoop集群的步骤。文章还列举了常见的问题及解决方案，如配置winutils，解决依赖问题，以及处理远程提交时的权限和配置问题。

摘要由CSDN通过智能技术生成

这篇文章将介绍如何搭建hadoop的开发环境，并且详细描述如何通过intellij idea开发hadoop的map-reduce程序以及远程提交。
前提：

需要在本机下载hadoop,不需要修改配置安装，但需要设置下hadoop_home,java_home等
下载winutils,并解压放在$Hadoop_HOME/bin目录下
如果集群配置中都是指定的主机名，那么需要在你本机hosts中加上集群主机解析（不加也可以，就是不太方便）

方法一：maven项目

1、intellij idea创建maven项目这里就不多说了，先创建一个maven项目。
2、配置pom.xml文件，补全pom.xml文件之后，idea会自动下载jar包并引入。

<dependencies>
<dependency>
<groupId>junit</groupId>
<artifactId>junit</artifactId>
<version>3.8.1</version>
<scope>test</scope>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-common</artifactId>
<version>2.8.0</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-client</artifactId>
<version>2.8.0</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-hdfs</artifactId>
<version>2.8.0</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-mapreduce-client-core</artifactId>
<version>2.8.0</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-mapreduce-client-jobclient</artifactId>
<version>2.8.0</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-mapreduce-client-common</artifactId>
<version>2.8.0</version>
</dependency>
</dependencies>

方法二：新建java项目

1、intellij idea创建java项目

2、添加依赖

这里写图片描述

导入成功后

这里写图片描述

3、编写代码

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;
import java.util.StringTokenizer;

public class WordCount {
   

public static class TokenizerMapper
extends Mapper<Object, Text, Text, IntWritable> {
   

private final static IntWritable one = new IntWritable(1);
private Text word = new Text();

public void map(Object key, Text value, Context context
) throws IOException, InterruptedException {
StringTokenizer itr = new StringTokenizer(value.toString());
while (itr.hasMoreTokens()) {
word.set(itr.nextToken());
context.write(word, one);
}
}
}

public static class IntSumReducer
extends Reducer<Text, IntWritable, Text, IntWritable> {
   
private IntWritable result = new IntWritable();

public void reduce(Text key, Iterable<IntWritable> values,
Context context
) throws IOException, InterruptedException {
int sum = 0;
for (IntWritable val : values) {
sum += val.get();
}
result.set(sum);
context.write(key, result);
}
}

private static void deleteDir(

最低0.47元/天解锁文章

agent_x

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
windows Hadoop开发环境搭建及远程提交

这篇文章将介绍如何搭建hadoop的开发环境，并且详细描述如何通过intellij idea开发hadoop的map-reduce程序以及远程提交。前提：安装hadoop,下载winutils,并解压放在$Hadoop_HOME/bin目录下方法一：maven项目1、intellij idea创建maven项目这里就不多说了，先创建一个maven项目。 2、配置pom.xml文件，补全pom.
复制链接

扫一扫

专栏目录