速度Spark为什么能够把云计算大数据的速度提高到100倍以上

codepeng

于 2016-03-11 20:47:37 发布

阅读量231

点赞数

分类专栏： Spark 文章标签：云计算大数据 spark hadoop

本文链接：https://blog.csdn.net/qiao0809/article/details/50858717

版权

Spark 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

1、基于内存计算

**Hadoop**
![Hadoop](https://img-blog.csdn.net/20160311204546046)
 shuffle 70%决定了效率    map->reduce 每次计算结果放到磁盘上（容错，容灾）,io网络开销都比较大
**Spark**
![Spark](https://img-blog.csdn.net/20160311204622625)
当然对内存要求比较大

2、DAG 有向无环图

 对数据的操作首先记录下来，暂时不执行（transform阶段），具体要结果的时候（reduceByKey）才会执行

3、任务调度机制（ Scheduler）

 一个虚拟机可以开多个任务
 Spark不同任务间可以共享数据（内存级别）
 Hadoop中不同任务共享数据--磁盘

4、容错机制（Lineage）

 Hadoop中一个节点出错要重新运行

codepeng

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
速度Spark为什么能够把云计算大数据的速度提高到100倍以上

**1、基于内存计算**Hadoop**![这里写图片描述](http://img.blog.csdn.net/20160311204546046 "hadoop") shuffle 70%决定了效率 map->reduce 每次计算结果放到磁盘上（容错，容灾）,io网络开销都比较大**Spark**![Spark](http://img.blog.csdn.net/201603112
复制链接

扫一扫

专栏目录