spark相比hadoop的 优势如下

转载 2016年05月30日 15:56:20

1、中间结果输出

  基于mr的计算引擎通常会将中间结果输出到磁盘上,进行存储和容错。处于任务管道承接的考虑,当一些查询翻译到mr任务时,旺旺会产生多个stage,而这些串联的stage又依赖于底层文件系统(如hdfs)来存储每一个stage的输出结果。

spark将执行模型抽象为通用的有向无环图,dag计划 着可以将多个stage的任务串联或者并行执行,而无需将stage中间结果输出到hdfs上面,类似的引起包括dryad tez

1、数据格式和内存布局

由于mr schema on read处理方式会引起较大的处理开销。spark抽象出分布式内存存储结构弹性分布式数据集rdd, 进行数据的存储。rdd能支持粗粒度写操作。但对于读取操作。rdd可以精确到每条几率,这使得rdd可以用来作为分布式索引,spark的特性是能够控制数据在不同节点上的分区,用户可以自定义分区策略,如hash分区。spark 和spark sql 在spark的基础上实现了列存储和列存储压缩

3、执行策略

 mr在数据shuffle之前花费了大量的时间来排序,spark则可以减轻上述问题带来的开销,因为spark任务在shuffle中不是所有情景都需要排序,所以支持基于hash的分布式聚合,调度中采用更为通用的任务执行计划 dag ,每一轮次的输出结果在内存缓存。

4、任务调度的开销

  传统的mr系统,如hadoop 是为了运行长达数小时的批量作业而设计的,在某些极端情况下,提交一个任务的延迟非常高。

  spark采用了事件驱动的类库 akka来启动任务,通过线程池复用县城来避免进程或线程启动和切换开销。



Hadoop、Spark等5种大数据框架对比,你的项目该用哪种?

Hadoop、Spark等5种大数据框架对比,你的项目该用哪种?   本文将介绍并对比5种主流大数据框架,助你更深层次了解这些框架,从而在项目中更好地使用它们。   本文首发于...
  • yimingsilence
  • yimingsilence
  • 2017年02月17日 17:01
  • 6689

排序性能PK:Spark完胜MapReduce

作者 李士窑 发布于 2014年10月15日  作为Hadoop MapReduce后继者Apache Spark可以支撑数千节点规模的集群部署,尤其在内存数据处理上,S...
  • J_Runner
  • J_Runner
  • 2014年12月16日 15:08
  • 763

Hive-On-Tez性能测试

Table of Contents Hive-On-Tez测试 MRR计算模型测试MPJ计算模型测试 Hive-On-Tez测试 在MRR和MPJ计算模型的...
  • JavaMan_chen
  • JavaMan_chen
  • 2015年07月21日 06:04
  • 5912

Spark性能优化总结

近期优化了一个spark流量统计的程序,此程序跑5分钟小数据量日志不到5分钟,但相同的程序跑一天大数据量日志各种失败。经优化,使用160 vcores + 480G memory,一天的日志可在2...
  • ainidong2005
  • ainidong2005
  • 2016年11月13日 21:51
  • 6347

关于Hadoop与Spark的讨论

原文地址:http://www.zhihu.com/question/26568496/answer/64405363 Hadoop 首先看一下Hadoop解决了什么问题,Hadoop就是解决了大...
  • jianzhanger
  • jianzhanger
  • 2015年11月20日 11:36
  • 2159

hadoop、storm和spark的区别、比较

1、hadoop、Storm该选哪一个?为了区别hadoop和Storm,该部分将回答如下问题: 1.hadoop、Storm各是什么运算 2.Storm为什么被称之为流式计算系统 3.hado...
  • bitcarmanlee
  • bitcarmanlee
  • 2016年11月05日 21:28
  • 13598

Hadoop、Spark等5种大数据框架对比,你的项目该用哪种?

Hadoop、Spark等5种大数据框架对比,你的项目该用哪种? 2016-11-23 大愚若智 译 InfoQ 作者丨Justin  Ellingwood 译者丨大愚若...
  • fidelhl
  • fidelhl
  • 2016年11月23日 08:33
  • 5371

Hadoop、Storm、Spark这三个大数据平台有啥区别,各有啥应用场景?

Storm与Spark、Hadoop这三种框架,各有各的优点,每个框架都有自己的最佳应用场景。 所以,在不同的应用场景下,应该选择不同的框架。 Storm是最佳的流式计算框架,Storm由Ja...
  • w1014074794
  • w1014074794
  • 2016年02月18日 17:26
  • 8800

Hadoop与spark性能比较试验

自从spark正式亮相后,其官网上就公开声称其计算速度比hadoop要快10到100倍。我看了后总觉得其存在很大的炒作成份,不太相信。正好单位目前在做一个大数据的项目,于是就借机实实在在的对二者的计算...
  • plstudio1
  • plstudio1
  • 2017年08月25日 17:00
  • 460

hadoop、storm和spark的区别、比较

一、hadoop、Storm该选哪一个? 为了区别hadoop和Storm,该部分将回答如下问题: 1.hadoop、Storm各是什么运算 2.Storm为什么被称之为流式计算系统 3.hadoo...
  • poisions
  • poisions
  • 2016年04月11日 11:19
  • 11208
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:spark相比hadoop的 优势如下
举报原因:
原因补充:

(最多只允许输入30个字)