spark开源框架

        Spark官方地址:http://spark.apache.org/examples.html

从Spark官方文档上可以得知,Spark是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速。由美国加州伯克利大学AMP实验室的Matei为主的小团队所开发。轻量级,使用scala语言开发,只有63个scala文件。

        Spark是hadoop框架一个补充。可以通过Mesos的第三方集群框架与hadoop共存在同一节点上。与hadoop相比,spark有与优势之处。Spark 集群计算架构:

        1.Spark 引进了内存集群计算的概念,可在内存集群计算中将数据集缓存在内存中,以缩短访问延迟。

         2.Spark 还引进了名为弹性分布式数据集(RDD) 的抽象。RDD 被表示为一个 Scala 对象,并且可以从文件中创建它;一个并行化的切片(遍布于节点之间);另一个 RDD 的转换形式;并且最终会彻底改变现有 RDD 的持久性,比如请求缓存在内存中。
        3.Spark 中的应用程序称为驱动程序,这些驱动程序可实现在单一节点上执行的操作或在一组节点上并行执行的操作。与 Hadoop 类似,Spark 支持单节点集群或多节点集群。对于多节点操作,Spark 依赖于 Mesos 集群管理器。

         Spark提供了三种开发语言API接口:python,scala和java

Spark 可以同时运行在 Windows 和UNIX系统上 (e.g. Linux, Mac OS)。 在本地机器非常方便,你只需安装java虚拟机环境即可,下面是saprk运行条件:jdk6版本以上, python 2.6版本以上,对于 Scala API,spark1.0对应Scala 2.10版本。


          

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值