Hadoop 实操（二）使用IDEA编写第一个MapReduce程序

最新推荐文章于 2024-06-10 12:34:14 发布

LH-sw

最新推荐文章于 2024-06-10 12:34:14 发布

阅读量6k

点赞数 5

分类专栏： hadoop 文章标签： hadoop mapreduce 大数据

本文链接：https://blog.csdn.net/weixin_41827712/article/details/109710023

版权

hadoop 专栏收录该内容

3 篇文章 1 订阅

订阅专栏

Hadoop 实操（二）使用IDEA编写第一个MapReduce程序
一、IDEA部分：
1、打开idea,新建项目 File->New->Project
2、在弹出的界面选择JDK，我用的IDEA版本是2019.3.1的，自带JDK是11，我安装了1.8，所以这里我选择的是1.8。
在这里插入图片描述
3、为项目起名

4、因为我配置了maven，所以我这直接在pom文件里添加了hadoop的依赖。

<repositories>
    <repository>
        <id>nexus-aliyun</id>
        <name>nexus-aliyun</name>
        <url>http://maven.aliyun.com/nexus/content/groups/public/</url>
        <releases>
            <enabled>true</enabled>
        </releases>
        <snapshots>
            <enabled>false</enabled>
        </snapshots>
    </repository>
</repositories>
<dependencies>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-hdfs</artifactId>
        <version>2.9.0</version>
    </dependency>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-common</artifactId>
        <version>2.9.0</version>
    </dependency>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-yarn-common</artifactId>
        <version>2.9.0</version>
    </dependency>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-mapreduce-client-common</artifactId>
        <version>2.9.0</version>
    </dependency>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-auth</artifactId>
        <version>2.9.0</version>
    </dependency>
    <dependency>
        <groupId>org.apache.lucene</groupId>
        <artifactId>lucene-analyzers-common</artifactId>
        <version>7.3.0</version>
    </dependency>
    <dependency>
        <groupId>org.apache.lucene</groupId>
        <artifactId>lucene-core</artifactId>
        <version>7.3.0</version>
    </dependency>
    <dependency>
        <groupId>org.apache.lucene</groupId>
        <artifactId>lucene-analyzers-icu</artifactId>
        <version>7.3.0</version>
    </dependency>
    <dependency>
        <groupId>jfree</groupId>
        <artifactId>jfreechart</artifactId>
        <version>1.0.13</version>
    </dependency>
</dependencies>

<build>
    <plugins>
        <plugin>
            <artifactId>maven-dependency-plugin</artifactId>
            <configuration>
                <excludeTransitive>false</excludeTransitive>
                <stripVersion>true</stripVersion>
                <outputDirectory>./lib</outputDirectory>
            </configuration>

        </plugin>
    </plugins>
</build>

4、创建三个类，Map类、Reduce类、入口类。

Map类类名：Map

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import java.io.IOException;
public class Map extends Mapper<LongWritable,Text,Text,IntWritable> {
    public void map(LongWritable key,Text value,Context context)throws IOException,InterruptedException{
        String line = value.toString();//读取一行数据
        String str[] = line.split("");//因为英文字母是以“ ”为间隔的，因此使用“ ”分隔符将一行数据切成多个单词并存在数组中
        for(String s :str){//循环迭代字符串，将一个单词变成<key,value>形式，及<"hello",1>
            context.write(new Text(s),new IntWritable(1));
        }
    }
}

Reduce类类名：WordcountReduce

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.io.Text;
import java.io.IOException;
public class WordcountReduce extends Reducer<Text,IntWritable,Text,IntWritable> {
    public void reduce(Text key, Iterable<IntWritable> values,Context context)throws IOException,InterruptedException{
        int count = 0;
        for(IntWritable value: values) {
            count++;
        }
        context.write(key,new IntWritable(count));
    }
}

入口类类名：WordCount

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
public class WordCount {
    public static void main(String[] args)throws Exception{
        Configuration conf = new Configuration();
        //获取运行时输入的参数，一般是通过shell脚本文件传进来。
        String [] otherArgs = new         GenericOptionsParser(conf,args).getRemainingArgs();
        if(otherArgs.length < 2){
            System.err.println("必须输入读取文件路径和输出路径");
            System.exit(2);
        }
        Job job = new Job();
        job.setJarByClass(WordCount.class);
        job.setJobName("wordcount app");
        //设置读取文件的路径，都是从HDFS中读取。读取文件路径从脚本文件中传进来
        FileInputFormat.addInputPath(job,new Path(args[0]));
        //设置mapreduce程序的输出路径，MapReduce的结果都是输入到文件中
        FileOutputFormat.setOutputPath(job,new Path(args[1]));
        //设置实现了map函数的类
        job.setMapperClass(Map.class);
        //设置实现了reduce函数的类
        job.setReducerClass(WordcountReduce.class);
        //设置reduce函数的key值
        job.setOutputKeyClass(Text.class);
        //设置reduce函数的value值
        job.setOutputValueClass(IntWritable.class);
        System.exit(job.waitForCompletion(true) ? 0 :1);
    }
}

5、打jar包 File->Project Structure ,然后如图
在这里插入图片描述
选择以后在弹出的窗口选择刚刚写好的Word Count类

然后开始打jar包

点击上图的“Build”之后就会生成一个jar包。jar的位置看下图，依次点击File->Project Structure->Artifacts就会看到如下的界面：

二、Linux下操作
1、启动FDFS
#start-all.sh
2、打开WinSCP，使用方法可以参考我上一篇文章。把刚才打好的jar包直接复制到root目录下。
在这里插入图片描述
3、在hdfs上创建目录，创建一个txt.因为我之前创建过目录，所以直接就创建txt了。创建目录的方法请看上一篇。/data/wordcount是我之前创建的目录。

在这里插入图片描述
4、执行

执行成功以后的结果应该是：

5、运行成功后在hadoop集群中的hdfs文件系统中会看到一个output4的文件夹。使用“hadoop fs -ls /”命令查看

6、在output4文件夹中有两个文件，分别是_SUCCESS和part-r-00000，part-r-00000记录着mapreduce的执行结果，使用hadoop fs -cat /wordcount_output/part-r-00000查看part-r-00000的内容：
在这里插入图片描述
注：还有一种shell文件的方法，请参考https://www.cnblogs.com/airnew/p/9540982.html

LH-sw

关注

5
点赞
踩
56

收藏

觉得还不错? 一键收藏
1
评论
Hadoop 实操（二）使用IDEA编写第一个MapReduce程序

Hadoop 实操（二）使用IDEA编写第一个MapReduce程序一、IDEA部分：1、打开idea,新建项目 File->New->Project2、在弹出的界面选择JDK，我用的IDEA版本是2019.3.1的，自带JDK是11，我安装了1.8，所以这里我选择的是1.8。3、为项目起名4、因为我配置了maven，所以我这直接在pom文件里添加了hadoop的依赖。<repositories> <repository> <
复制链接

扫一扫