win10+IDEA+Maven wordcount入门和日志分析

最新推荐文章于 2022-01-14 17:50:20 发布

owenbb

最新推荐文章于 2022-01-14 17:50:20 发布

阅读量257

点赞数

分类专栏：大数据开发

本文链接：https://blog.csdn.net/owenfy/article/details/104014241

版权

大数据开发专栏收录该内容

3 篇文章 0 订阅

订阅专栏

新建项目

file-newproject-选择maven直接next
groupId ArtifactId自己填

这样就新建好了一个空的项目，别着急，还有一个地方可能需要修改。点击file打开setting，定位到Build, Execution, Deployment->Compiler->Java Compiler，将WordCount的Target bytecode version修改为1.8。
在这里插入图片描述

配置依赖

    <repositories>
        <repository>
            <id>apache</id>
            <url>http://maven.apache.org</url>
        </repository>
    </repositories>

    <dependencies>
        <!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-core -->
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-core</artifactId>
            <version>1.2.1</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-common</artifactId>
            <version>2.6.1</version>
        </dependency>
    </dependencies>

添加后，import changes如下
在这里插入图片描述

编写wordcount

在src->main->java下新建一个WordCount类，添加内容

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;
import java.util.StringTokenizer;

public class WordCount {
    // 自定义的 TokenizerMapper 类将继承自 Mapper 类，以实现相关的接口和方法
    // 在 Map 阶段将会执行其中的作业逻辑
    public static class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable> {

        // 在 MapReduce 框架中，基本数据类型都封装成了 Writable 类型
        // 因此 int 类型对应于 IntWritable 类型，在初始化时将其声明为静态常量是为了方便地使用 1 的值
        private final static IntWritable one = new IntWritable(1);
        // 声明一个 Text 类型的私有成员变量 word
        private Text word = new Text();
        // map 方法的写法是标准格式，可以参考官方文档理解各个参数的含义
        public void map(Object key, Text value, Context context) throws IOException,InterruptedException{

            // 从 value 中读入数据并按照空格分隔
            StringTokenizer itr = new StringTokenizer(value.toString());

            // 将每个分隔形成的单词组装成键值对
            while (itr.hasMoreTokens()){
                word.set(itr.nextToken());
                context.write(word,one);
            }
        }

    }

    // 自定义的 IntSumReducer 类将继承自 Reducer 类，以实现相关的接口和方法
    // 在 Reduce 阶段将会执行其中的作业逻辑

    public static class IntSumReducer extends Reducer<Text,IntWritable,Text,IntWritable>{
        // 声明一个 IntWritable 类型值用于存放累加结果
        private IntWritable result = new IntWritable();

        // reduce 方法的写法也是参考官方文档进行的，相关的参数可以查阅官方文档进行理解
        public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
            // 进行值的累加操作
            int sum = 0;
            for (IntWritable val : values) {
                sum += val.get();
            }
            // 将 int 基本类型通过 set 方法赋予到结果中
            result.set(sum);
            // 写入上下文中进行保存
            context.write(key, result);
        }

    }

    // main 方法是整个程序的入口，在这里涉及到作业（Job）的各项设置
    public static void main(String[] args) throws Exception{
        // 程序的第一步是声明并初始化 Configuration 对象用于设置作业的相关运行参数
        Configuration conf = new Configuration();

        // 设置作业的配置参数和名称
        Job job = Job.getInstance(conf, "word count");
        // 将 WordCount 类作为运行的入口
        job.setJarByClass(WordCount.class);

        // 通过 setMapperClass 方法告诉集群应当在 map 阶段执行哪些逻辑
        job.setMapperClass(TokenizerMapper.class);
        // 通过 setCombinerClass 方法告诉集群应当在 combine 阶段执行哪些逻辑，此处复用了 Reducer 的逻辑，用于在本地进行部分结果的累加
        // 这个步骤不是必须的
        job.setCombinerClass(IntSumReducer.class);
        // 通过 setReducerClass 方法告诉集群应当在 combine 阶段执行哪些逻辑
        job.setReducerClass(IntSumReducer.class);
        // 设置输出结果中键的数据类型
        job.setOutputKeyClass(Text.class);
        // 设置输出结果中值的数据类型
        job.setOutputValueClass(IntWritable.class);
        // 利用 main 函数的第 1 个输入参数获取输入数据的路径
        FileInputFormat.addInputPath(job, new Path(args[0]));
        // 利用 main 函数的第 2 个输入参数获取输出数据的路径
        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        // job.waitForCompletion(true) 相当于开启执行任务的开关，执行到此处时一个 MapReduce 应用才会真正地开始计算
        // 使用 System.exit 方法来告知程序运行的状态
        System.exit(job.waitForCompletion(true) ? 0 : 1);

    }
}

配置输入文件

WordCount对输入文件字符进行计数，输出计数的结果。首先需要配置输入路径，这里在WordCount下（src同级目录）新建一个文件夹input，并添加一个或多个文本文件到input中，作为示例。比如如下内容
在这里插入图片描述
点击File->Project Structure，在弹出来的对话框中选择Modules项，点击Sources选项卡，将Language level调整为8

配置运行参数

在Intellij菜单栏中选择Run->Edit Configurations，在弹出来的对话框中点击+，新建一个Application配置。配置Main class为WordCount（可以点击右边的…选择），Program arguments为input/ output/，即输入路径为刚才创建的input文件夹，输出为output。
在这里插入图片描述

运行

上述配置完成后，点击菜单栏Run->Run 'WordCount’即开始运行此MapReduce程序，Intellij下方会显示Hadoop的运行输出。待程序运行完毕后，Intellij左上方会出现新的文件夹output，其中的part-r-00000就是运行的结果了！
在这里插入图片描述
由于Hadoop的设定，下次运行时务必删除output文件夹！

出现的问题

ERROR security.UserGroupInformation: PriviledgedActionException as:owenc cause:java.io.IOException: Failed to set permissions of path:

在这里插入图片描述
替换掉hadoop-core下的1.2.1的jar包

这里下载 https://download.csdn.net/download/yunlong34574/7079951

日志分析代码

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;
import java.util.StringTokenizer;

public class LogCount {
    // 自定义的 TokenizerMapper 类将继承自 Mapper 类，以实现相关的接口和方法
    // 在 Map 阶段将会执行其中的作业逻辑
    public static class LogMapper extends Mapper<Object, Text, Text, IntWritable> {

        private Text logIp = new Text();
        // 在 MapReduce 框架中，基本数据类型都封装成了 Writable 类型
        // 因此 int 类型对应于 IntWritable 类型，在初始化时将其声明为静态常量是为了方便地使用 1 的值
        private final static IntWritable one = new IntWritable(1);
        // 声明一个 Text 类型的私有成员变量 word

        // map 方法的写法是标准格式，可以参考官方文档理解各个参数的含义
        @Override
        public void map(Object key, Text value, Context context) throws IOException,InterruptedException{

            String logRecord = value.toString();
            String[] logField = logRecord.split(" ");
            logIp.set(logField[0]);
            context.write(logIp,one);
        }

    }

    // 自定义的 IntSumReducer 类将继承自 Reducer 类，以实现相关的接口和方法
    // 在 Reduce 阶段将会执行其中的作业逻辑

    public static class LogReducer extends Reducer<Text,IntWritable,Text,IntWritable>{
        // 声明一个 IntWritable 类型值用于存放累加结果
        private IntWritable result = new IntWritable();

        // reduce 方法的写法也是参考官方文档进行的，相关的参数可以查阅官方文档进行理解
        @Override
        public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
            // 进行值的累加操作
            int sum = 0;
            for (IntWritable val : values) {
                sum += val.get();
            }
            // 将 int 基本类型通过 set 方法赋予到结果中
            result.set(sum);
            // 写入上下文中进行保存
            context.write(key, result);
        }

    }

    // main 方法是整个程序的入口，在这里涉及到作业（Job）的各项设置
    public static void main(String[] args) throws Exception{
        // 程序的第一步是声明并初始化 Configuration 对象用于设置作业的相关运行参数
        Configuration conf = new Configuration();

        // 设置作业的配置参数和名称
        Job job = Job.getInstance(conf, "log count");
        // 将 WordCount 类作为运行的入口
        job.setJarByClass(LogCount.class);

        // 通过 setMapperClass 方法告诉集群应当在 map 阶段执行哪些逻辑
        job.setMapperClass(LogMapper.class);
        // 通过 setCombinerClass 方法告诉集群应当在 combine 阶段执行哪些逻辑，此处复用了 Reducer 的逻辑，用于在本地进行部分结果的累加
        job.setReducerClass(LogReducer.class);
        // 设置输出结果中键的数据类型
        job.setOutputKeyClass(Text.class);
        // 设置输出结果中值的数据类型
        job.setOutputValueClass(IntWritable.class);
        // 利用 main 函数的第 1 个输入参数获取输入数据的路径
        FileInputFormat.addInputPath(job, new Path(args[0]));
        // 利用 main 函数的第 2 个输入参数获取输出数据的路径
        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        // job.waitForCompletion(true) 相当于开启执行任务的开关，执行到此处时一个 MapReduce 应用才会真正地开始计算
        // 使用 System.exit 方法来告知程序运行的状态
        System.exit(job.waitForCompletion(true) ? 0 : 1);

    }
}