mapreduce和spark的原理及区别

最新推荐文章于 2024-03-11 14:53:51 发布

置顶碧茂大数据

最新推荐文章于 2024-03-11 14:53:51 发布

阅读量2.9w

点赞数 6

分类专栏：知识学习文章标签：初识Apache Hadoop Hadoop产生原因 hdfs 大数据经验分享认识YARN

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dashujuedu/article/details/53487199

版权

知识学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Mapreduce和spark是数据处理层两大核心，了解和学习大数据必须要重点掌握的环节，根据自己的经验和大家做一下知识的分享。

首先了解一下Mapreduce，它最本质的两个过程就是Map和Reduce，Map的应用在于我们需要数据一对一的元素的映射转换，比如说进行截取，进行过滤，或者任何的转换操作，这些一对一的元素转换就称作是Map；Reduce主要就是元素的聚合，就是多个元素对一个元素的聚合，比如求Sum等，这就是Reduce。

Mapreduce是Hadoop1.0的核心，Spark出现慢慢替代Mapreduce。那么为什么Mapreduce还在被使用呢？因为有很多现有的应用还依赖于它，它不是一个独立的存在，已经成为其他生态不可替代的部分，比如pig，hive等。

尽管MapReduce极大的简化了大数据分析，但是随着大数据需求和使用模式的扩大，用户的需求也越来越多：

1. 更复杂的多重处理需求（比如迭代计算, ML, Graph）；

2. 低延迟的交互式查询需求（比如ad-hoc query）

而MapReduce计算模型的架构导致上述两类应用先天缓慢，用户迫切需要一种更快的计算模型，来补充MapReduce的先天不足。

Spark的出现就弥补了这些不足，我们来了解一些Spark的优势：

1.每一个作业独立调度，可以把所有的作业做一个图进行调度，各个作业之间相互依赖，在调度过程中一起调度，速度快。

2.所有过程都基于内存，所以通常也将Spark称作是基于内存的迭代式运算框架。

3.spark提供了更丰富的算子，让操作更方便。

4.更容易的API：支持Python，Scala和Java

其实spark里面也可以实现Mapreduce，但是这里它并不是算法，只是提供了map阶段和reduce阶段，但是在两个阶段提供了很多算法。如Map阶段的map, flatMap, filter, keyBy，Reduce阶段的reduceByKey, sortByKey, mean, gourpBy, sort等。

以上就是和大家做的一个知识分享，只是个人的一些见解，对于具体概念的知识方面大家可以私下里去学习一下，有时间也可以去关注一下“大数据cn”和“大数据时代学习中心”这些微信公众服务号，里面介绍的一些大数据发展趋势，大数据知识以及分享的一些资料，都挺不错的，建议关注看看，期望大家都可以有所进步！

碧茂大数据

关注

6
点赞
踩
43

收藏

觉得还不错? 一键收藏
0
评论
mapreduce和spark的原理及区别

本文主要根据自己的经验对于mapreduce和spark的原理及区别进行了一个详细的描述，对于了解和学习mapreduce和spark有着一定作用
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。