学习Spark第一天---1张图了解Spark

最新推荐文章于 2021-05-16 17:45:42 发布

jsky_studio

最新推荐文章于 2021-05-16 17:45:42 发布

阅读量827

点赞数

分类专栏： Spark 文章标签： spark 分布式计算 mapreduce 大数据 scala

本文链接：https://blog.csdn.net/jsky_studio/article/details/38469419

版权

Spark 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

最近对Spark产生些兴趣，从今天开始踏上学习之路。大家别误解，我对雪佛兰的微型车不感兴趣，指的是大数据平台相关的Spark计算框架。
小弟接触过hadoop和storm, 对Spark还是新手，还望路过的各位多多指点。

        2009年，UC Berkeley的AMP实验室创立了Spark项目。该项目是要创建类似Hadoop MapReduce的并行分布式计算框架，因此它继承MR的所有优点。除此之外，它还有如下优势：
<1> 代码轻量级（核心代码用Scala实现，20000+）
<2> 运算速度快：主要是因为其运算中间结果直接保存在内存中。这使得Spark更适用于数据挖据和机器学习等需要迭代的计算类型。
<3> 提供更多种类的数据集操作，不像MapReduce,只有Map和Reduce两种类型。
<3> 可以和Hadoop及现存Hadoop数据整合。

在网上还查到一些关于Spark和Hadoop的比较：

“代码量方面，Spark:   20000+；Hadoop: 90000+ (1.0版本） / 220，000+ （2.0版本）。Spark立足内存计算，性能超Hadoop百倍，即使使用磁盘，其迭代计算也会有10倍提升。 ”

        2013年，Spark进入Apache孵化器，并成为ASF的顶级项目，其社区支持也已超过Hadoop MapReduce.

        Spark可以运行在Window和类Unix系统上（Linux, Mac OS等等）。唯一安装依赖是Java环境, 要求是Java 6+。
此外Spark还支持Python和Scala语言，版本要求如下: