Spark基础概况

本文介绍了Spark的基本概念,强调其内存计算优势及适用场景。文章详细讲解了Spark的安装过程,包括获取源码、版本匹配HDFS以及多种部署方式。特别提到了Spark Shell作为快速开发和学习Scala的工具,演示了加载文件到RDD的操作。同时,讨论了构建Spark应用的方法和SparkContext在作业提交中的作用。
摘要由CSDN通过智能技术生成

            最近本人对各种分布式计算平台研究的比较火热,上周的时间简单了了解了Storm的用法,今天马不停蹄的开始了新的学习。同样是非常流行的分布式平台,Spark,跟Hadoop属于同类型的。Spark和Storm一样,作为最近才刚刚开源出来的一个项目,学习的资料相当少,大家都还在学习阶段,所以,我目前的学习的情况也只是限于比较粗糙的学习。

             Spark是一个开源的通用并行分布式计算框架,由加州大学伯克利分校的AMP实验室开发,支持内存计算,(Spark也是以此出名的),多迭代批量处理,即席查询,流处理,和图计算等多种范式。Spark内存计算框架适合各种迭代算法和交互式数据分析,能够提升大数据处理的实时性和准确性。

            学习Spark的第一步当然是安装Spark,在安装Spark的之前,必须从github上获取一个Spark的源码版本。Spark提供了基本源码包,和已经编译好的压缩包,如果笔友想要更深入的学习Spark,推荐自己下载源码进行编译。Spark将HDFS作为数据存储的介质,所以说,Spark为了和HDFS有交互,在编译源代码的时候,2者的代码版本需要一致。接下来就是部署Spark,部署Spark由很多方式:

(1).借助EC2上运行Spark,可能需要Amazon的账号

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值