Spark详解(一、Spark概述)

本文介绍了Spark作为一种基于内存的快速大数据分析计算引擎,与Hadoop MapReduce的区别。Spark以其内存计算和弹性分布式数据集(RDD)特性,提供更快的迭代计算,相较于MR更高效。文章还探讨了Spark的结构,包括Driver、Executor、Master&Worker,以及核心概念RDD和DAG。
摘要由CSDN通过智能技术生成

 

Spark是一种基于内存的快速的、通用、可拓展的大数据分析计算引擎。

一、Spark与MapReduce

Hadoop框架中的MapReduce计算引擎,也是一种大数据分析计算引擎。那既然已经又来MR那我们为何还要开发Spark计算模型呢?或者说这两者有何相同之处?在应用方面有何不同?

1、Spark与Hadoop

Hadoop是一个开源的生态圈,有文件储存的HDFS,有计算引擎MR,有资源调度的YARN,以及数据库的Hbase等等。

Spark就仅仅是一个计算引擎,仅仅相对的是MR。并不能和hadoop来做比较。

2、Spark与MR

首先来说,MR程序是由Java开发,在使用时使用Java编写程序。Spark是由Scala语言开发,使用Scala编写程序。(Scala也是一种基于JVM的函数式编程语言)

Spark是一个数据快速的分析项目,他的核心技术是弹性分布式数据集(RDD)。提供了比MR丰富的模型,可以快速在内存中对数据集进行多次迭代。不像MR,如果要进行复杂的计算,需要多个MR程序相串联。

Spark是一个基于内存的计算引擎,而MR是一个基于磁盘的操作。这也是他们最大的区别,MR多个作业都要依赖于磁盘交互,但是Spark就不用,只需要在写入的时候进行一次。所以Spark在大部分情况下比MR要快。

二、Spark结构

Spark是一个标准分布式计算引擎,采用master-slave结构。

1、核心组件

Driver:是Spark的驱动器节点,负责实际代码的执行工作。将用户程序转化成作业(

  • 3
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值