MapReduce是啥? 详解

MapReduce定义

Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架。

Mapreduce核心功能

是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上。

MapReduce优缺点

优点:
MapReduce 易于编程- -它简单的实现一些接口
良好的扩展性- -简单的增加机器来扩展它的计算能力
高容错性- -一台机器挂了,它可以把上面的计算任务自动转移到另外一个节点上运行
适合PB级以上海量数据的离线处理- -它适合离线处理而不适合在线处理,延迟比较高
缺点:
不擅长做实时计算 - -延迟比较高,很难在毫秒或者秒级内返回结果
流式计算- -流式计算的输入数据是动态的,而MapReduce的输入数据集是静态的。这是因为MapReduce自身的设计特点决定了数据源必须是静态的。
DAG(有向图)计算- -多个应用程序存在依赖关系,后一个应用程序的输入为前一个的输出。在这种情况下,MapReduce并不是不能做,而是使用后,每个MapReduce作业的输出结果都会写入到磁盘,会造成大量的磁盘IO,导致性能非常的低下。

MapReduce核心思想

在这里插入图片描述
1)分布式的运算程序往往需要分成至少2个阶段。
2)第一个阶段的maptask并发实例,完全并行运行,互不相干。
3)第二个阶段的reduce task并发实例互不相干,但是他们的数据依赖于上一个阶段的所有maptask并发实例的输出。
4)MapReduce编程模型只能包含一个map阶段和一个reduce阶段,如果用户的业务逻辑非常复杂,那就只能多个mapreduce程序,串行运行。

MapReduce进程(MR)

一个完整的mapreduce程序在分布式运行时有三类实例进程:
1)MrAppMaster:负责整个程序的过程调度及状态协调。
2)MapTask:负责map阶段的整个数据处理流程。
3)ReduceTask:负责reduce阶段的整个数据处理流程。

MapReduce编程

用户编写的程序分成三个部分:Mapper、Reducer和Driver。
1.Mapper阶段
(1)用户自定义的Mapper要继承自己的父类
(2)Mapper的输入数据是KV对的形式(KV的类型可自定义)
(3)Mapper中的业务逻辑写在map()方法中
(4)Mapper的输出数据是KV对的形式(KV的类型可自定义)
(5)map()方法(maptask进程)对**每一个<K,V>**调用一次

public class xxxMapper extends Mapper<LongWritable, Text, Text, IntWritable>{
   
	@Override
	protected void map(LongWritable key, Text value, Context context)
			throws IOException, InterruptedException {
   
			业务逻辑...
	}
}

2.Reducer阶段
(1)用户自定义的Reducer要继承自己的父类
(2)Reducer的输入数据类型对应Mapper的输出数据类型,也是KV
(3)Reducer的业务逻辑写在reduce()方法中
(4)Reducetask进程对每一组相同k的<k,v>组调用一次reduce()方法

public class xxxReducer extends Reducer<Text, IntWritable, Text, IntWritable>{
   
	@Override
	protected void reduce(Text key, Iterable<
  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
MapReduce中,常见的Join操作包括Reduce-Side Join和Map-Side Join。 1. Reduce-Side Join: Reduce-Side Join是将两个数据集分别按照Join Key进行排序,并将它们传输到Reduce函数中进行Join操作的一种方式。在Reduce函数中,可以利用Iterator将相同Join Key的记录找出来,进行Join操作,然后输出结果。 Reduce-Side Join的缺点是需要进行大量的磁盘I/O操作,因为需要将两个数据集进行排序,并将它们写入磁盘中。此外,Reduce-Side Join在处理大型数据集时也会产生性能问题,因为Reduce函数需要处理所有的数据记录,而且需要进行大量的数据传输。 2. Map-Side Join: Map-Side Join是将两个数据集中Join Key相同的记录分别传输到Map函数中进行Join操作的一种方式。在Map函数中,可以利用HashMap将相同Join Key的记录找出来,进行Join操作,然后输出结果。 相对于Reduce-Side Join,Map-Side Join的优点是不需要进行排序操作,并且可以避免大量的磁盘I/O操作,因为数据集可以在Map函数中进行Join操作。此外,Map-Side Join在处理大型数据集时也能够产生更好的性能,因为Map函数只需要处理一部分数据记录,而且不需要进行大量的数据传输。 但是,Map-Side Join的缺点是需要占用更多的内存空间,因为需要将HashMap中的关键字和值保存在内存中。此外,Map-Side Join也需要进行数据预处理,以便在Map函数中进行Join操作。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值