spark相比hadoop的 优势如下

转载 2016年05月30日 15:56:20

1、中间结果输出

  基于mr的计算引擎通常会将中间结果输出到磁盘上,进行存储和容错。处于任务管道承接的考虑,当一些查询翻译到mr任务时,旺旺会产生多个stage,而这些串联的stage又依赖于底层文件系统(如hdfs)来存储每一个stage的输出结果。

spark将执行模型抽象为通用的有向无环图,dag计划 着可以将多个stage的任务串联或者并行执行,而无需将stage中间结果输出到hdfs上面,类似的引起包括dryad tez

1、数据格式和内存布局

由于mr schema on read处理方式会引起较大的处理开销。spark抽象出分布式内存存储结构弹性分布式数据集rdd, 进行数据的存储。rdd能支持粗粒度写操作。但对于读取操作。rdd可以精确到每条几率,这使得rdd可以用来作为分布式索引,spark的特性是能够控制数据在不同节点上的分区,用户可以自定义分区策略,如hash分区。spark 和spark sql 在spark的基础上实现了列存储和列存储压缩

3、执行策略

 mr在数据shuffle之前花费了大量的时间来排序,spark则可以减轻上述问题带来的开销,因为spark任务在shuffle中不是所有情景都需要排序,所以支持基于hash的分布式聚合,调度中采用更为通用的任务执行计划 dag ,每一轮次的输出结果在内存缓存。

4、任务调度的开销

  传统的mr系统,如hadoop 是为了运行长达数小时的批量作业而设计的,在某些极端情况下,提交一个任务的延迟非常高。

  spark采用了事件驱动的类库 akka来启动任务,通过线程池复用县城来避免进程或线程启动和切换开销。



相关文章推荐

Hadoop优势

Hadoop优势

Hadoop 特点 和缺点

一、 Hadoop 特点 1、支持超大文件 一般来说,HDFS存储的文件可以支持TB和PB级别的数据。 2、检测和快速应对硬件故障 在集群环境中,硬件故障...

Spark的5大优势

一、Apache Spark 的5大优势: 1、 更高的性能。因为数据被加载到集群主机的分布式内存中。数据可以被快速的转换迭代,并缓存用以后续的频繁访问需求。在数据全部加载到内存的情况下,Spark...

Spark(一): 基本架构及原理

Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和St...

spark的优点与理论

轻:Spark 0.6核心代码有2万行,Hadoop 1.0为9万行,2.0为22万行。一方面,感谢Scala语言的简洁和丰富表达力;另一方面,Spark很好地利用了Hadoop和Mesos(伯克利 ...

Spark到底解决了什么根本性的技术问题?

1.背景: 在spark出现之前,hadoop的迅速发展,hadoop分布式集群,把编程简化为自动提供 位置感知性调度,容错,以及负载均衡的一种模式,用户就可以在普通的PC机上运行超大集群运算,ha...

Hadoop、Spark等5种大数据框架对比,你的项目该用哪种?

Hadoop、Spark等5种大数据框架对比,你的项目该用哪种?   本文将介绍并对比5种主流大数据框架,助你更深层次了解这些框架,从而在项目中更好地使用它们。   本文首发于...

spark与hadoop对比

1.hadoop解决了什么问题Hadoop就是解决了大数据(大到一台计算机无法进行存储,一台计算机无法在要求的时间内进行处理)的可靠存储和处理。 HDFS,在由普通PC组成的集群上提供高可靠的文件存...

hadoop、storm和spark的区别、比较

一、hadoop、Storm该选哪一个? 为了区别hadoop和Storm,该部分将回答如下问题: 1.hadoop、Storm各是什么运算 2.Storm为什么被称之为流式计算系统 3.hadoo...

Hadoop与分布式数据处理 Spark VS Hadoop有哪些异同点?

Spark是一个开源的通用并行分布式计算框架,由加州大学伯克利分校的AMP实验室开发,支持内存计算、多迭代批量处理、即席查询、流处理和图计算等多种范式。Spark内存计算框架适合各种迭代算法和交互式数...
  • lishehe
  • lishehe
  • 2015年02月27日 16:17
  • 10090
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:spark相比hadoop的 优势如下
举报原因:
原因补充:

(最多只允许输入30个字)