最近对Spark产生些兴趣,从今天开始踏上学习之路。大家别误解,我对雪佛兰的微型车不感兴趣,指的是大数据平台相关的Spark计算框架。
小弟接触过hadoop和storm, 对Spark还是新手,还望路过的各位多多指点。
2009年,UC Berkeley的AMP实验室创立了Spark项目。该项目是要创建类似Hadoop MapReduce的并行分布式计算框架,因此它继承MR的所有优点。除此之外,它还有如下优势:
<1> 代码轻量级(核心代码用Scala实现,20000+)
<2> 运算速度快:主要是因为其运算中间结果直接保存在内存中。这使得Spark更适用于数据挖据和机器学习等需要迭代的计算类型。
<3> 提供更多种类的数据集操作,不像MapReduce,只有Map和Reduce两种类型。
<3> 可以和Hadoop及现存Hadoop数据整合。
在网上还查到一些关于Spark和Hadoop的比较:
“代码量方面,Spark: 20000+;Hadoop: 90000+ (1.0版本) / 220,000+ (2.0版本)。Spark立足内存计算,性能超Hadoop百倍,即使使用磁盘,其迭代计算也会有10倍提升。 ”
2013年,Spark进入Apache孵化器,并成为ASF的顶级项目,其社区支持也已超过Hadoop MapReduce.
Spark可以运行在Window和类Unix系统上(Linux, Mac OS等等)。唯一安装依赖是Java环境, 要求是Java 6+。
此外Spark还支持Python和Scala语言,版本要求如下:
小弟接触过hadoop和storm, 对Spark还是新手,还望路过的各位多多指点。
2009年,UC Berkeley的AMP实验室创立了Spark项目。该项目是要创建类似Hadoop MapReduce的并行分布式计算框架,因此它继承MR的所有优点。除此之外,它还有如下优势:
<1> 代码轻量级(核心代码用Scala实现,20000+)
<2> 运算速度快:主要是因为其运算中间结果直接保存在内存中。这使得Spark更适用于数据挖据和机器学习等需要迭代的计算类型。
<3> 提供更多种类的数据集操作,不像MapReduce,只有Map和Reduce两种类型。
<3> 可以和Hadoop及现存Hadoop数据整合。
在网上还查到一些关于Spark和Hadoop的比较:
“代码量方面,Spark: 20000+;Hadoop: 90000+ (1.0版本) / 220,000+ (2.0版本)。Spark立足内存计算,性能超Hadoop百倍,即使使用磁盘,其迭代计算也会有10倍提升。 ”
2013年,Spark进入Apache孵化器,并成为ASF的顶级项目,其社区支持也已超过Hadoop MapReduce.
Spark可以运行在Window和类Unix系统上(Linux, Mac OS等等)。唯一安装依赖是Java环境, 要求是Java 6+。
此外Spark还支持Python和Scala语言,版本要求如下:
Python 2.6+
Scala 2.10.x (Scala版本是针对Spark 1.0.2)
最后,用一张图来描述Spark Overview:
参考资料:
spark.apache.org/
http://www.csdn.net/article/2014-06-18/2820283
本文比较肤浅,还请各位见谅。以后在学习Spark过程中会尽力提高。
IT人的微信自媒体--- 杰天空, 走在寻找创意的路上
发掘创意,点缀生活,品味人生。
请搜索微信订阅号: jksy_studio ,或者微信扫描头像二维码添加关注
杰天空静候您的光临。