Hadoop示例程序之——WordCount

最新推荐文章于 2023-03-07 16:30:27 发布

weixin_33743880

最新推荐文章于 2023-03-07 16:30:27 发布

阅读量120

点赞数

文章标签：大数据 java

原文链接：https://my.oschina.net/guanhe/blog/1865787

版权

为什么80%的码农都做不了架构师？>>>

尝试一下Hadoop的Demo，熟悉下相关的MapReducer的计算框架

1、创建Mapper类

package hadoop.mr;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;
import java.util.StringTokenizer;

public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable> {

    private Text word = new Text();

    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        String wordline = value.toString();

        StringTokenizer st = new StringTokenizer(wordline);
        while (st.hasMoreTokens()) {
            word.set(st.nextToken());
            context.write(word, new IntWritable(1));
        }
    }
}

2、创建Reducer类

package hadoop.mr;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

public class WordCountReducer extends Reducer<Text, IntWritable, Text, IntWritable> {

    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
        int count = 0;
        for (IntWritable value : values) {
            count += value.get();
        }
        context.write(key, new IntWritable(count));
    }
}

3、配置相关的Job作业

package hadoop.job;

import hadoop.mr.WordCountMapper;
import hadoop.mr.WordCountReducer;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapred.FileInputFormat;
import org.apache.hadoop.mapred.JobConf;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

import java.io.IOException;

public class WordCount {
    public static void main(String[] args) throws IOException, InterruptedException, ClassNotFoundException {
        Configuration config = new Configuration();
        Job job = new Job(config);
        job.setJarByClass(WordCount.class);
        job.setJobName("wordCount-Job");
        job.setMapperClass(WordCountMapper.class);
        job.setReducerClass(WordCountReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        job.setInputFormatClass(TextInputFormat.class);
        job.setOutputFormatClass(TextOutputFormat.class);
        FileInputFormat.addInputPath((JobConf) job.getConfiguration(), new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));
        job.waitForCompletion(true);
    }
}

4、引入相关依赖

由于我这边使用的是ide编辑器来进行编码的，并且是创建的相关的maven工程进行项目的管理，因此需要引入一下的依赖

<dependencies>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-common</artifactId>
            <version>2.5.2</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-hdfs</artifactId>
            <version>2.5.2</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>2.5.2</version>
        </dependency>
    </dependencies>

5、打成jar包

<groupId>FirstTry</groupId>
    <artifactId>FirstTry</artifactId>
    <version>1.0-SNAPSHOT</version>

6、由于使用hdfs进行文件的上传

7、运行jar包，执行相关的作业

8、查询相关的结果

hadoop fs -ls hdfs://localhost:9000/user/output 查看输出文件part-r-00000

查看文件内容 hadoop fs -cat hdfs://localhost:9000/user/output/part-r-00000

9、计算单词数量成功

第一个小程序OK啦。

转载于:https://my.oschina.net/guanhe/blog/1865787