Spark详解（一、Spark概述）

最新推荐文章于 2024-07-31 13:16:03 发布

杨老七

最新推荐文章于 2024-07-31 13:16:03 发布

阅读量9.9k

点赞数 3

分类专栏： SparkNode 文章标签： spark scala big data

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43285680/article/details/121916254

版权

本文介绍了Spark作为一种基于内存的快速大数据分析计算引擎，与Hadoop MapReduce的区别。Spark以其内存计算和弹性分布式数据集(RDD)特性，提供更快的迭代计算，相较于MR更高效。文章还探讨了Spark的结构，包括Driver、Executor、Master&Worker，以及核心概念RDD和DAG。

摘要由CSDN通过智能技术生成

Spark是一种基于内存的快速的、通用、可拓展的大数据分析计算引擎。

一、Spark与MapReduce

Hadoop框架中的MapReduce计算引擎，也是一种大数据分析计算引擎。那既然已经又来MR那我们为何还要开发Spark计算模型呢？或者说这两者有何相同之处？在应用方面有何不同？

1、Spark与Hadoop

Hadoop是一个开源的生态圈，有文件储存的HDFS，有计算引擎MR，有资源调度的YARN，以及数据库的Hbase等等。

Spark就仅仅是一个计算引擎，仅仅相对的是MR。并不能和hadoop来做比较。

2、Spark与MR

首先来说，MR程序是由Java开发，在使用时使用Java编写程序。Spark是由Scala语言开发，使用Scala编写程序。（Scala也是一种基于JVM的函数式编程语言）

Spark是一个数据快速的分析项目，他的核心技术是弹性分布式数据集（RDD）。提供了比MR丰富的模型，可以快速在内存中对数据集进行多次迭代。不像MR，如果要进行复杂的计算，需要多个MR程序相串联。

Spark是一个基于内存的计算引擎，而MR是一个基于磁盘的操作。这也是他们最大的区别，MR多个作业都要依赖于磁盘交互，但是Spark就不用，只需要在写入的时候进行一次。所以Spark在大部分情况下比MR要快。

二、Spark结构

Spark是一个标准分布式计算引擎，采用master-slave结构。

1、核心组件

Driver：是Spark的驱动器节点，负责实际代码的执行工作。将用户程序转化成作业（

最低0.47元/天解锁文章

关注

3
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
Spark详解（一、Spark概述）

Spark是一种基于内存的快速的、通用、可拓展的大数据分析计算引擎。一、Spark与MapReduceHadoop框架中的MapReduce计算引擎，也是一种大数据分析计算引擎。那既然已经又来MR那我们为何还要开发Spark计算模型呢？或者说这两者有何相同之处？在应用方面有何不同？1、Spark与HadoopHadoop是一个开源的生态圈，有文件储存的HDFS，有计算引擎MR，有资源调度的YARN，以及数据库的Hbase等等。Spark就仅仅是一个计算引擎，仅仅相对的是MR。并不能...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。