Spark基础概况

最新推荐文章于 2022-11-07 10:13:37 发布

Android路上的人

最新推荐文章于 2022-11-07 10:13:37 发布

阅读量2.9k

点赞数

分类专栏： Spark 文章标签： spark 分布式计算大数据内存迭代

本文链接：https://blog.csdn.net/androidlushangderen/article/details/40515153

版权

本文介绍了Spark的基本概念，强调其内存计算优势及适用场景。文章详细讲解了Spark的安装过程，包括获取源码、版本匹配HDFS以及多种部署方式。特别提到了Spark Shell作为快速开发和学习Scala的工具，演示了加载文件到RDD的操作。同时，讨论了构建Spark应用的方法和SparkContext在作业提交中的作用。

摘要由CSDN通过智能技术生成

最近本人对各种分布式计算平台研究的比较火热，上周的时间简单了了解了Storm的用法，今天马不停蹄的开始了新的学习。同样是非常流行的分布式平台，Spark，跟Hadoop属于同类型的。Spark和Storm一样，作为最近才刚刚开源出来的一个项目，学习的资料相当少，大家都还在学习阶段，所以，我目前的学习的情况也只是限于比较粗糙的学习。

Spark是一个开源的通用并行分布式计算框架，由加州大学伯克利分校的AMP实验室开发，支持内存计算，(Spark也是以此出名的)，多迭代批量处理，即席查询，流处理，和图计算等多种范式。Spark内存计算框架适合各种迭代算法和交互式数据分析，能够提升大数据处理的实时性和准确性。

学习Spark的第一步当然是安装Spark，在安装Spark的之前，必须从github上获取一个Spark的源码版本。Spark提供了基本源码包，和已经编译好的压缩包，如果笔友想要更深入的学习Spark，推荐自己下载源码进行编译。Spark将HDFS作为数据存储的介质，所以说，Spark为了和HDFS有交互，在编译源代码的时候，2者的代码版本需要一致。接下来就是部署Spark，部署Spark由很多方式:

(1).借助EC2上运行Spark，可能需要Amazon的账号