hadoop----MapReduce简单案例

本文详细介绍了如何使用MapReduce进行单词统计,从理解MapReduce的基本工作流程,编写map和reduce函数,到打包程序,上传到Linux节点,并最终运行和查看统计结果,展示了MapReduce在大数据处理中的应用。
摘要由CSDN通过智能技术生成

MapReduce

MapReduce是一种可用于数据处理的编程模型。
Hadoop可以运行各种语言版本的MapReduce程序。
MapReduce程序本质上是并行运行的,因此可以将大规模的数据分析任务分发给任何一个拥有足够多机器的数据中心。
MapReduce的优势在于处理大规模数据集。

map和reduce

MapReduce任务过程分为两个处理阶段:map阶段和reduce阶段。
每阶段都以键-值对作为输入和输出,其类型由程序员来选择。程序员还需要写两个函数:map函数和reduce函数。

MapReduce对数据的处理:都是以键值对<key,value>的形式
(input) <k1, v1> -> map -> <k2, v2> -> reduce -> <k3, v3> (output)

编写MapReduce程序(单词统计)

  1. 创建java项目,导入jar包
  2. 编写map函数
import java.io.IOException;
import java.util.StringTokenizer;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

/*
 * Mapper类型是一个泛型类型:
 * Mapper<KEYIN, VALUEIN, KEYOUT, VALUEOUT>
 * 有四个形参类
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值