MapReduce是一个分布式计算框架
起源于Google
它将大型数据操作作业分解为可以跨服务器集群并执行单个任务
适用于大规模数据处理场景
每个节点处理存储在该节点的数据
每个job包含Map和Reduce两部分
分而治之
简化并行计算的编程模型
构建抽象模型:Map和Reduce
开发人员专注于实现Mapper 和Reducer 函数
隐藏系统层细节
优点:
易于编程:实现接口就能完成一个分布式计算框架
可扩展性强
高容错性
高吞吐量:处理的数据量
不适用领域
难以实时计算 :Mapper reduce 是批量处理 无法实时处理(离计算)
不适合流式计算:只能处理静态数据
不适合DAG(有向图)计算
key和value类型
1、必须可序列化(serializable)
作用:网络传输以及持久化存储
IntWritable、LongWriteable、FloatWritable、Text、DoubleWritable,BooleanWritable、NullWritable等
2、都继承了Writable接口
并实现write()和readFields()方法
3、Keys必须实现WritableComparable接口
Reduce阶段需要sort
keys需要可比较
Mapreduce编程模型
input 输入
map 接收键和值
combine 进行优化
partitioner 进行分区
reducer 接收输入 转为输出
output 输出
mapreduce 工作过程
Mapreduce 实现Wordcount(词频统计编程)
1、创建maven工程 添加pom文件依赖关系
<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion><groupId>Mapreduce</groupId>
<artifactId>cn.kgc</artifactId>
<version>1.0-SNAPSHOT</version><properties>
<maven.compiler.source>1.8</maven.compiler.source>
<maven.compiler.target>1.8</maven.compiler.target>
<hadoop.version>2.6.0</hadoop.version>
</properties>
<dependencies>
<!--MapReduce-->
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-auth</artifactId>
<version>2.6.0</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-mapreduce-client-core</artifactId>
<version>2.6.0</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-mapreduce-client-jobclient</artifactId>
<version>2.6.0</version>
</dependency>
<dependency>
<groupId>junit</groupId>
<artifactId>junit</artifactId>
<version&g