Spark原理和使用场景的简述

最新推荐文章于 2024-01-18 02:04:45 发布

iteye_9644

最新推荐文章于 2024-01-18 02:04:45 发布

阅读量230

点赞数

文章标签： spark mapreduce hadoop

本文链接：https://blog.csdn.net/iteye_9644/article/details/82570915

版权

今天老大谈到了Spark，说是计算速度比hadoop MapReduce快100倍,顿时惊讶，于是乎埋头google,主要想弄清楚两个问题 1 Spark怎么会那么快 2 Spark的适用场景。苦苦搜索，总得结果。
spark是对MapReduce计算模型的改进，可以说没有HDFS，MapReduce，就没有spark.尽管spark官网很少提到MapReduce.
[color=red]Spark可用于迭代，主要思想是内存计算，即将数据存到内存中，以提高迭代效率。[/color]
（我认为就是通过缓存数据的方式减少IO的消耗，从而提高了性能）
Spark可以将过程数据存在内存中（从文件中读取，或经过map处理的数据），方便其他模块重复调用。
相比hadoop MapReduce 主要的改进：
[color=red]1迭代运算，一次创建数据集。多次使用，减少了IO的开销。
2允许多种计算模型（包含map-reduce）
3 支持非OO式算法实现，对机器学习算法，图计算能力有很好的支持。[/color]

仔细研读下面的文章，就能理解我的总结
迭代式MapReduce框架介绍
[url]http://dongxicheng.org/mapreduce/iterative-mapreduce-intro/[/url]
传统MapReduce框架
[url]http://dongxicheng.org/mapreduce/traditional-mapreduce-framework/[/url]
选择Spark on Yarn的三个理由
[url] http://storage.it168.com/a2013/1123/1564/000001564111.shtml[/url]
注：迭代运算：这里指对同一个数据集的多次使用

iteye_9644

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark原理和使用场景的简述

今天老大谈到了Spark，说是计算速度比hadoop MapReduce快100倍,顿时惊讶，于是乎埋头google,主要想弄清楚两个问题 1 Spark怎么会那么快 2 Spark的适用场景。苦苦搜索，总得结果。spark是对MapReduce计算模型的改进，可以说没有HDFS，MapReduce，就没有spark.尽管spark官网很少提到MapReduce.[color=re...
复制链接

扫一扫