学习Spark第一天---1张图了解Spark

最近对Spark产生些兴趣,从今天开始踏上学习之路。大家别误解,我对雪佛兰的微型车不感兴趣,指的是大数据平台相关的Spark计算框架。
小弟接触过hadoop和storm, 对Spark还是新手,还望路过的各位多多指点。


        2009年,UC Berkeley的AMP实验室创立了Spark项目。该项目是要创建类似Hadoop MapReduce的并行分布式计算框架,因此它继承MR的所有优点。除此之外,它还有如下优势:
  <1> 代码轻量级(核心代码用Scala实现,20000+)
  <2> 运算速度快:主要是因为其运算中间结果直接保存在内存中。这使得Spark更适用于数据挖据和机器学习等需要迭代的计算类型。
  <3> 提供更多种类的数据集操作,不像MapReduce,只有Map和Reduce两种类型。
  <3> 可以和Hadoop及现存Hadoop数据整合。

在网上还查到一些关于Spark和Hadoop的比较:

“代码量方面,Spark:   20000+;Hadoop:  90000+ (1.0版本) / 220,000+ (2.0版本)。Spark立足内存计算,性能超Hadoop百倍,即使使用磁盘,其迭代计算也会有10倍提升。 ”

        2013年,Spark进入Apache孵化器,并成为ASF的顶级项目,其社区支持也已超过Hadoop MapReduce.

        Spark可以运行在Window和类Unix系统上(Linux, Mac OS等等)。唯一安装依赖是Java环境, 要求是Java 6+。
此外Spark还支持Python和Scala语言,版本要求如下:  
Python 2.6+
Scala 2.10.x (Scala版本是针对Spark 1.0.2)

最后,用一张图来描述Spark Overview:


参考资料: 

spark.apache.org/

http://www.csdn.net/article/2014-06-18/2820283


本文比较肤浅,还请各位见谅。以后在学习Spark过程中会尽力提高。




IT人的微信自媒体--- 杰天空, 走在寻找创意的路上
发掘创意,点缀生活,品味人生。
请搜索微信订阅号: jksy_studio  ,或者微信扫描头像二维码添加关注



杰天空静候您的光临。




评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值