大数据MapReduce(Java实现)

本文详细介绍了使用Java实现大数据MapReduce的过程,主要关注MapReduce的流程,包括Map阶段将大任务拆分为小任务,Reduce阶段进行数据汇总。关键点在于理解Map和Reduce操作中的key-value对,以及在Java中如何编写WordCountMain、WordCountMap和WordCountReduce类。最终将源码打包成jar文件并在HDFS上运行,完成简单的MapReduce任务。
摘要由CSDN通过智能技术生成

一、MapReduce流程分析

Map的任务是将大任务转换成小任务,Reduce是汇总的意思

注意:

1、所有的输入和输出都是key-value类型,总共四对

2、key2 value2和key3 value3数据类型一致,value3是一个集合,集合中的每个元素是value2

k1 value分别是偏移量和输入的数据 k2 value2是进行分词后的单词和频率 k3 value3 ,value3是一个集合

是value2的集合,这一步已经开始Reducer阶段,k4 value4是将value3中的集合进行计算得到的最终结果

java源码实现

结构分别来WordCountMain、WordCountMap、WordCountReduce

WordCountMain代码

package demo;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import com.sun.jersey.core.impl.provider.entity.XMLJAXBElem
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值