大数据框架之Spark框架

原创 2017年08月10日 08:02:32

大数据软件框架之



Spark框架:




Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。(引自百度百科)



由于原来的批处理框架MapReduce适合离线计算,却无法满足实时性较高的业务,所以Spark诞生了。Spark速度快,开发简单,可以同时兼顾批处理和实时数据分析。有时Spark框架被称作实时计算框架、内存计算框架或流式计算框架。

Hadoop使用数据复制来实现容错性,而Spark使用RDD(resilient Distributed Datasets ,弹性分布式数据集)数据存储模式来实现数据的容错性。RDD是只读的,分区记录的集合,在数据丢失后,RDD含有如何重建分区的相关信息,这就避免了使用数据复制,减少了对磁盘的访问。

Spark也需要集群管理器和分布式存储系统,集群管理器有Hadoop YARN、Apache Mesos 和Spark原生集群,分布式存储可以用HDFFS、Casanadra、OpenStaack Swift和Amazon S3。Spark也支持多语言,其中,最推荐的是Scala,Spark和Scala可以紧密集成。

Spark的内存适合于迭代计算,机器学习算法需要多次遍历训练集,可以将训练集缓存在内存里,节省了访问磁盘的开销。尽管如此,Spark本身的复杂性也困扰着开发人员,它的统计功能和R语言没有可比性。






版权声明:欢迎大家阅读,共同交流。

Spark计算过程分析

摘要: ### 基本概念----------Spark是一个分布式的内存计算框架,其特点是能处理大规模数据,计算速度快。Spark延续了Hadoop的MapReduce计算模型,相比之下Spark的计...
  • u011596455
  • u011596455
  • 2016年11月26日 12:46
  • 1368

Spark:一个高效的分布式计算系统

概述 什么是Spark Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,...
  • shineHoo
  • shineHoo
  • 2015年09月17日 15:05
  • 1586

Spark——并行计算框架

SparkSpark是一个通用的并行计算框架,是一种快速处理大规模数据的通用引擎,由UCBerkeley的AMP实验室开发。其架构如下图所示: Spark与Hadoop相比 Spark的中间数据放到...
  • suchang1127
  • suchang1127
  • 2015年10月22日 22:22
  • 3875

Spark计算引擎原理

一、Spark内部原理 ——通过RDD,创建DAG(逻辑计划) ——为DAG生成物理查询计划 ——调用并执行Task 二、生成逻辑执行图:产生RDD 三、生成逻辑执行图:RDD之间关系 四...
  • superman_xxx
  • superman_xxx
  • 2016年10月21日 23:03
  • 987

大数据计算框架Hadoop, Spark和MPI

今天做题,其中一道是 请简要描述一下Hadoop, Spark, MPI三种计算框架的特点以及分别适用于什么样的场景。 一直想对这些大数据计算框架总结一下,只可惜太懒,一直拖着。今天就借这个机会好...
  • Claire_Bear7
  • Claire_Bear7
  • 2015年07月12日 10:48
  • 5634

spark+mongodb大数据框架搭建

spark+mongodb大数据框架搭建
  • chenguohong88
  • chenguohong88
  • 2017年09月05日 14:14
  • 907

Hadoop、Spark等5种大数据框架对比,你的项目该用哪种?

Hadoop、Spark等5种大数据框架对比,你的项目该用哪种? 2016-11-23 大愚若智 译 InfoQ 作者丨Justin  Ellingwood 译者丨大愚若...
  • fidelhl
  • fidelhl
  • 2016年11月23日 08:33
  • 5432

大数据时代,为什么使用Spark框架?

1、轻量级快速处理     Spark的快速是相当于Hadoop等其他分布式集群而言,其快速主要原因是基于内存的计算,减少了IO的操作,使用RDD可以将中间结果存放在内存或磁盘,以便之后做迭代计算时重...
  • lmalds
  • lmalds
  • 2016年04月19日 13:54
  • 1078

Spark Streaming实时计算框架介绍

随着大数据的发展,人们对大数据的处理要求也越来越高,原有的批处理框架MapReduce适合离线计算,却无法满足实时性要求较高的业务,如实时推荐、用户行为分析等。 Spark Streaming是建立在...
  • u013516966
  • u013516966
  • 2016年03月25日 17:39
  • 2037

大数据框架之Spark框架

大数据软件框架之 Spark框架: Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室...
  • StarCoder_WangYue
  • StarCoder_WangYue
  • 2017年08月10日 08:02
  • 364
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:大数据框架之Spark框架
举报原因:
原因补充:

(最多只允许输入30个字)