新建项目
file-newproject-选择maven直接next
groupId ArtifactId自己填
这样就新建好了一个空的项目,别着急,还有一个地方可能需要修改。点击file打开setting,定位到Build, Execution, Deployment->Compiler->Java Compiler,将WordCount的Target bytecode version修改为1.8。
配置依赖
<repositories>
<repository>
<id>apache</id>
<url>http://maven.apache.org</url>
</repository>
</repositories>
<dependencies>
<!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-core -->
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-core</artifactId>
<version>1.2.1</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-common</artifactId>
<version>2.6.1</version>
</dependency>
</dependencies>
添加后,import changes如下
编写wordcount
在src->main->java下新建一个WordCount类,添加内容
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import java.io.IOException;
import java.util.StringTokenizer;
public class WordCount {
// 自定义的 TokenizerMapper 类将继承自 Mapper 类,以实现相关的接口和方法
// 在 Map 阶段将会执行其中的作业逻辑
public static class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable> {
// 在 MapReduce 框架中,基本数据类型都封装成了 Writable 类型
// 因此 int 类型对应于 IntWritable 类型,在初始化时将其声明为静态常量是为了方便地使用 1 的值
private final static IntWritable one = new IntWritable(1);
// 声明一个 Text 类型的私有成员变量 word
private Text word = new Text();
// map 方法的写法是标准格式,可以参考官方文档理解各个参数的含义
public void map(Object key, Text value, Context context) throws IOException,InterruptedException{
// 从 value 中读入数据并按照空格分隔
StringTokenizer itr = new StringTokenizer(value.toString());
// 将每个分隔形成的单词组装成键值对
while (itr.hasMoreTokens()){
word.set(itr.nextToken());
context.write(word,one);
}
}
}
// 自定义的 IntSumReducer 类将继承自 Reducer 类,以实现相关的接口和方法
// 在 Reduce 阶段将会执行其中的作业逻辑
public static class IntSumReducer extends Reducer<Text,IntWritable,Text,IntWritable>{
// 声明一个 IntWritable 类型值用于存放累加结果
private IntWritable result = new IntWritable();
// reduce 方法的写法也是参考官方文档进行的,相关的参数可以查阅官方文档进行理解
public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
// 进行值的累加操作
int sum = 0;
for (IntWritable val : values) {
sum += val.get();
}
// 将 int 基本类型通过 set 方法赋予到结果中
result.set(sum);
// 写入上下文中进行保存
context.write(key, result);
}
}
// main 方法是整个程序的入口,在这里涉及到作业(Job)的各项设置
public static void main(String[] args) throws Exception{
// 程序的第一步是声明并初始化 Configuration 对象用于设置作业的相关运行参数
Configuration conf = new Configuration();
// 设置作业的配置参数和名称
Job job = Job.getInstance(conf, "word count");
// 将 WordCount 类作为运行的入口
job.setJarByClass(WordCount.class);
// 通过 setMapperClass 方法告诉集群应当在 map 阶段执行哪些逻辑
job.setMapperClass(TokenizerMapper.class);
// 通过 setCombinerClass 方法告诉集群应当在 combine 阶段执行哪些逻辑,此处复用了 Reducer 的逻辑,用于在本地进行部分结果的累加
// 这个步骤不是必须的
job.setCombinerClass(IntSumReducer.class);
// 通过 setReducerClass 方法告诉集群应当在 combine 阶段执行哪些逻辑
job.setReducerClass(IntSumReducer.class);
// 设置输出结果中键的数据类型
job.setOutputKeyClass(Text.class);
// 设置输出结果中值的数据类型
job.setOutputValueClass(IntWritable.class);
// 利用 main 函数的第 1 个输入参数获取输入数据的路径
FileInputFormat.addInputPath(job, new Path(args[0]));
// 利用 main 函数的第 2 个输入参数获取输出数据的路径
FileOutputFormat.setOutputPath(job, new Path(args[1]));
// job.waitForCompletion(true) 相当于开启执行任务的开关,执行到此处时一个 MapReduce 应用才会真正地开始计算
// 使用 System.exit 方法来告知程序运行的状态
System.exit(job.waitForCompletion(true) ? 0 : 1);
}
}
配置输入文件
WordCount对输入文件字符进行计数,输出计数的结果。首先需要配置输入路径,这里在WordCount下(src同级目录)新建一个文件夹input,并添加一个或多个文本文件到input中,作为示例。比如如下内容
点击File->Project Structure,在弹出来的对话框中选择Modules项,点击Sources选项卡,将Language level调整为8
配置运行参数
在Intellij菜单栏中选择Run->Edit Configurations,在弹出来的对话框中点击+,新建一个Application配置。配置Main class为WordCount(可以点击右边的…选择),Program arguments为input/ output/,即输入路径为刚才创建的input文件夹,输出为output。
运行
上述配置完成后,点击菜单栏Run->Run 'WordCount’即开始运行此MapReduce程序,Intellij下方会显示Hadoop的运行输出。待程序运行完毕后,Intellij左上方会出现新的文件夹output,其中的part-r-00000就是运行的结果了!
由于Hadoop的设定,下次运行时务必删除output文件夹!
出现的问题
ERROR security.UserGroupInformation: PriviledgedActionException as:owenc cause:java.io.IOException: Failed to set permissions of path:
替换掉hadoop-core下的1.2.1的jar包
这里下载 https://download.csdn.net/download/yunlong34574/7079951
日志分析代码
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import java.io.IOException;
import java.util.StringTokenizer;
public class LogCount {
// 自定义的 TokenizerMapper 类将继承自 Mapper 类,以实现相关的接口和方法
// 在 Map 阶段将会执行其中的作业逻辑
public static class LogMapper extends Mapper<Object, Text, Text, IntWritable> {
private Text logIp = new Text();
// 在 MapReduce 框架中,基本数据类型都封装成了 Writable 类型
// 因此 int 类型对应于 IntWritable 类型,在初始化时将其声明为静态常量是为了方便地使用 1 的值
private final static IntWritable one = new IntWritable(1);
// 声明一个 Text 类型的私有成员变量 word
// map 方法的写法是标准格式,可以参考官方文档理解各个参数的含义
@Override
public void map(Object key, Text value, Context context) throws IOException,InterruptedException{
String logRecord = value.toString();
String[] logField = logRecord.split(" ");
logIp.set(logField[0]);
context.write(logIp,one);
}
}
// 自定义的 IntSumReducer 类将继承自 Reducer 类,以实现相关的接口和方法
// 在 Reduce 阶段将会执行其中的作业逻辑
public static class LogReducer extends Reducer<Text,IntWritable,Text,IntWritable>{
// 声明一个 IntWritable 类型值用于存放累加结果
private IntWritable result = new IntWritable();
// reduce 方法的写法也是参考官方文档进行的,相关的参数可以查阅官方文档进行理解
@Override
public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
// 进行值的累加操作
int sum = 0;
for (IntWritable val : values) {
sum += val.get();
}
// 将 int 基本类型通过 set 方法赋予到结果中
result.set(sum);
// 写入上下文中进行保存
context.write(key, result);
}
}
// main 方法是整个程序的入口,在这里涉及到作业(Job)的各项设置
public static void main(String[] args) throws Exception{
// 程序的第一步是声明并初始化 Configuration 对象用于设置作业的相关运行参数
Configuration conf = new Configuration();
// 设置作业的配置参数和名称
Job job = Job.getInstance(conf, "log count");
// 将 WordCount 类作为运行的入口
job.setJarByClass(LogCount.class);
// 通过 setMapperClass 方法告诉集群应当在 map 阶段执行哪些逻辑
job.setMapperClass(LogMapper.class);
// 通过 setCombinerClass 方法告诉集群应当在 combine 阶段执行哪些逻辑,此处复用了 Reducer 的逻辑,用于在本地进行部分结果的累加
job.setReducerClass(LogReducer.class);
// 设置输出结果中键的数据类型
job.setOutputKeyClass(Text.class);
// 设置输出结果中值的数据类型
job.setOutputValueClass(IntWritable.class);
// 利用 main 函数的第 1 个输入参数获取输入数据的路径
FileInputFormat.addInputPath(job, new Path(args[0]));
// 利用 main 函数的第 2 个输入参数获取输出数据的路径
FileOutputFormat.setOutputPath(job, new Path(args[1]));
// job.waitForCompletion(true) 相当于开启执行任务的开关,执行到此处时一个 MapReduce 应用才会真正地开始计算
// 使用 System.exit 方法来告知程序运行的状态
System.exit(job.waitForCompletion(true) ? 0 : 1);
}
}