mapReduce求文本偏移量和每行数据的和

mapReduce求文本偏移量和每行数据的和

一.文本
在这里插入图片描述
二.建三个java类
Map Count Reduce
在这里插入图片描述
三.写Map

***1、实例一个实体类,继承Mapper<输入放入key的类型,输入的value的类型,输出放入key的类型,输出的value的类型>***
public class WordCountMap extends Mapper<LongWritable,Text,LongWritable,LongWritable> {
***2、重写map(LongWritablekey,Textvalue,Contextcontext)
key每行行首的偏移量 
value每一行的数据 
context上下文对象*** 
@Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
***3、实现自己业务逻辑的代码
将数据进行拆分,并进行逐一输出。***
        //转化value
        String datas = value.toString();
        //截取
        String[] split = datas.split(" ");
        //遍历
        for (String data : split) {
            if ("".equals(data.trim())){
                continue;
            }
            context.write(key,new LongWritable(Long.parseLong(data.trim())));
        } }}

在这里插入图片描述
四.写Reduce

***1、实例一个实体类,继承Reducer<输入放入key的类型,输入的value的类型,输出放入key的类型,输出的value的类型>***

public class WordCountReduce extends Reducer<LongWritable,LongWritable,Text,LongWritable> {
    ***2、重写reduce(Textkey,Iterablevalues,Contextcontext)
key:每一个唯一的数据(游戏中的图形)
values:每一个图形,1的标记(1的list)
context:上下文对象***
    @Override
    protected void reduce(LongWritable key, Iterable<LongWritable> values, Context context) throws IOException, InterruptedException {
        long sum=0;
        for (LongWritable value : values) {
            sum+=value.get();
        }
        context.write(new Text("偏移量"+key),new LongWritable(sum));
    }
}

在这里插入图片描述
五.编写drive

public class WordCountDrive  extends Configured implements Tool {

    @Override
    public int run(String[] strings) throws Exception {
        Configuration conf=new Configuration();
    ***1、实例一个job***
        Job job = Job.getInstance(conf, "Sam02");
        FileSystem fileSystem = FileSystem.get(conf);




       ***2、使用job设置读物数据(包括数据的路径)***
        job.setInputFormatClass(TextInputFormat.class);
        TextInputFormat.addInputPath(job,new Path("C:\\SumData.txt"));




       ***3.使用job设置数据的输出路径***
        job.setOutputFormatClass(TextOutputFormat.class);
        TextOutputFormat.setOutputPath(job,new Path("D:\\cs\\ddd01"));

        ***4、使用job设置MAP类(map输入和输出的类型)***
        job.setMapperClass(WordCountMap.class);
        job.setMapOutputValueClass(LongWritable.class);
        job.setMapOutputKeyClass(LongWritable.class);
       ***5 、使用job设置Reduce类(Reduce输入和输出的类型)***
        job.setReducerClass(WordCountReduce.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(LongWritable.class);
        ***6.返回执行状态编号***
        return job.waitForCompletion(true)? 0 : 1 ;
    }

    public static void main(String[] args) throws Exception {
        ToolRunner.run(new WordCountDrive(),args);
    }
}

在这里插入图片描述

六.打开在这里插入图片描述
1.见到如下画面说明成功
在这里插入图片描述
七.注意
1.输入和输出路径请自行更改
2.输出路径不能覆盖,如果覆盖就会报错

  • 4
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
MapReduce中,数据偏移(data skew)是指在数据处理过程中,某些数据分片或键值对的负载不均衡现象。这可能导致部分任务比其他任务更加繁重,从而降低整体性能。 数据偏移可能出现在两个阶段:Map阶段和Reduce阶段。 在Map阶段,数据偏移通常指的是输入数据的分片不均匀,导致某些Mapper任务处理的数据量远大于其他任务。这可能由于输入数据的分布不均匀、数据倾斜或键值对的大小差异等原因引起。 在Reduce阶段,数据偏移通常指的是Reduce任务在输入键值对的分布上不均衡。这可能是由于某些键值对的数量远远超过其他键值对,导致部分Reduce任务需要处理更多的数据数据偏移会导致执时间长、资源利用率低下以及系统不稳定等问题。为了解决数据偏移问题,可以采取以下策略: 1. Combiner函数:在Map阶段使用Combiner函数对输出进合并,减少输出数据量,从而降低Reduce阶段的负载不均衡。 2. 数据预处理:对输入数据预处理,例如进采样、分桶、分区等操作,使得数据更加均匀分布。 3. 动态调整任务数量:根据任务执的进度和负载情况,动态调整Map和Reduce任务的数量,以实现负载均衡。 4. 智能路由:根据数据的特征和分布情况,将同一类数据路由到相同的任务中,避免负载不均衡。 这些策略可以根据具体的场景和需选择和组合,以提高MapReduce的性能和效率。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值