Hadoop中split源码分析

最新推荐文章于 2021-11-25 22:20:57 发布

yekanghui

最新推荐文章于 2021-11-25 22:20:57 发布

阅读量817

点赞数 1

分类专栏： hadoop 文章标签： split

本文链接：https://blog.csdn.net/aizhenshi/article/details/72862497

版权

本文通过一个简单的WordCount案例，深入分析Hadoop中split的源码，包括split的生成、大小计算以及不同情况下split的取值策略。详细探讨了当用户定义或未定义SPLIT_MAXSIZE和SPLIT_MINSIZE时，split如何根据blockSize进行调整。

摘要由CSDN通过智能技术生成

目的:通过一个简单的单词统计案例进行split信息获取的源码分析

实现WordCount的demo代码

单词统计的demo代码主要通过三个类来实现,现将代码贴出来

主类WordCount:

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WordCount {

    public static void main(String[] args) throws Exception {
        System.getProperty("HADOOP_USER_NAME", "root");

        Configuration conf = new Configuration(true);
        Job job = Job.getInstance(conf);

        job.setJarByClass(WordCount.class);
        job.setJobName("myjob");

        //设置mapper output的key和value
        job.setMapOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        job.setMapperClass(MyMapper.class);
        job.setReducerClass(MyReducer.class);

        Path input = new Path("/temp/wc/input");
        FileInputFormat.addInputPath(job, input);

        Path output = new Path("/temp/wc/output");
        if (output.getFileSystem(conf).exists(output)) {
            output.getFileSystem(conf).delete(output);
        }
        FileOutputFormat.setOutputPath(job, output);

        job.waitForCompletion(true);
    }
}

实现Mapper的类MyMapper

import java.io.IOException;
import java.util.StringTokenizer;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class MyMapper extends Mapper<Object, Text, Text, IntWritable> {
   
    private final static IntWritable one = new IntWritable(1);
    private Text word = new Text();

    /**
     * @param key split后的每一行的偏移量
     * @param value split后每一行的内容
     */
    public void map(Object key, Text value, Context context) throws IOException, InterruptedException {
        StringTokenizer itr = new StringTokenizer(value.toString());
        while (itr.hasMoreTokens()) {
            word.set(itr.nextToken());
            context.write(word, one);
        }
    }
}

实现Reducer的类MyReducer

import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class MyReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
   
    private IntWritable result = new IntWritable();

    public void reduce(Text key, Iterable<IntWritable> values, Context context)
            thr

最低0.47元/天解锁文章

yekanghui

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Hadoop中split源码分析

目的:通过一个简单的单词统计案例进行split信息获取的源码分析实现WordCount的demo代码单词统计的demo代码主要通过三个类来实现,现将代码贴出来主类WordCount:import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.Int
复制链接

扫一扫

专栏目录