MapReduce实战之KeyValueTextInputFormat使用案例

最新推荐文章于 2024-05-23 12:48:56 发布

不稳定记忆

最新推荐文章于 2024-05-23 12:48:56 发布

阅读量445

点赞数

分类专栏： Hadoop 文章标签： KeyValueTextInputFormat使用案例

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Faded1573606285/article/details/100675646

版权

Hadoop 专栏收录该内容

43 篇文章 0 订阅

订阅专栏

1）需求：统计输入文件中每一行的第一个单词相同的行数。

2）输入文件：

banzhang ni hao

xihuan hadoop banzhang dc

banzhang ni hao

xihuan hadoop banzhang dc

3）输出

banzhang 2

xihuan 2

4）代码实现

（1）编写mapper

package com.atguigu.mapreduce.KeyValueTextInputFormat;

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

public class KVTextMapper extends Mapper<Text, Text, Text, LongWritable>{

final Text k = new Text();

final LongWritable v = new LongWritable();

@Override

protected void map(Text key, Text value, Context context)

throws IOException, InterruptedException {

// banzhang ni hao

// 1 设置key和value

// banzhang

k.set(key);

// 设置key的个数

v.set(1);

// 2 写出

context.write(k, v);

}

}

（2）编写reducer

package com.atguigu.mapreduce.KeyValueTextInputFormat;

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Reducer;

public class KVTextReducer extends Reducer<Text, LongWritable, Text, LongWritable>{

LongWritable v = new LongWritable();

@Override

protected void reduce(Text key, Iterable<LongWritable> values,

Context context) throws IOException, InterruptedException {

long count = 0L;

// 1 汇总统计

for (LongWritable value : values) {

count += value.get();

}

v.set(count);

// 2 输出

context.write(key, v);

}

}

（3）编写Driver

package com.atguigu.mapreduce.keyvaleTextInputFormat;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.input.KeyValueLineRecordReader;

import org.apache.hadoop.mapreduce.lib.input.KeyValueTextInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class MyDriver {

public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {

Configuration conf = new Configuration();

// 设置切割符

conf.set(KeyValueLineRecordReader.KEY_VALUE_SEPERATOR, " ");

// 获取job对象

Job job = Job.getInstance(conf);

// 设置jar包位置，关联mapper和reducer

job.setJarByClass(MyDriver.class);

job.setMapperClass(MyMapper.class);

job.setOutputValueClass(LongWritable.class);

// 设置map输出kv类型

job.setMapOutputKeyClass(Text.class);

job.setMapOutputValueClass(LongWritable.class);

// 设置最终输出kv类型

job.setReducerClass(MyReducer.class);

job.setOutputKeyClass(Text.class);

// 设置输入输出数据路径

FileInputFormat.setInputPaths(job, new Path(args[0]));

// 设置输入格式

job.setInputFormatClass(KeyValueTextInputFormat.class);

// 设置输出数据路径

FileOutputFormat.setOutputPath(job, new Path(args[1]));

// 提交job

job.waitForCompletion(true);

}

}

不稳定记忆

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MapReduce实战之KeyValueTextInputFormat使用案例

1）需求：统计输入文件中每一行的第一个单词相同的行数。2）输入文件：banzhang ni haoxihuan hadoop banzhang dcbanzhang ni haoxihuan hadoop banzhang dc3）输出 banzhang 2xihuan 24）代码实现（1）编写mapper package com...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。