idea搭建scala环境_阿里P8专家，深入解析分布式计算：Strom+Scala+Spark，共15.93G-CSDN博客

前言

今天给大家分享的是Spark体系之分布式计算：Strom，Scala，Spark的技术分享，希望大家能够喜欢！

主要内容

Strom

Storm是分布式实时计算系统，用于数据的实时分析、持续计算，分布式RPC等。

storm架构结构

Scala

Scala是一种混合功能编程语言,类似java，运行于JVM，集成面向对象编程和函数式编程的各种特性。
(1)Scala可以与Java互操作：它用scalac这个编译器把源文件编译成Java的class文件，从Scala中调用所有的Java类库，也同样可以从Java应用程序中调用Scala的代码
(2)Spark是专为大规模数据处理而设计的快速通用的计算引擎，而spark就是scala编写的。
(3)对比Groovy和Scala：Groovy的优势在于易用性以及与Java无缝衔接，Scala的优势在于性能和一些高级特性

数据类型

Spark

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行计算框架，Spark拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

(1)Spark是Scala编写，方便快速编程。
(2)Spark与MapReduce的区别
都是分布式计算框架，Spark基于内存，MR基于HDFS；
Spark处理数据的能力一般是MR的十倍以上；
有DAG有向无环图来切分任务的执行先后顺序；
(3)Spark运行模式
Local:多用于本地测试，如在eclipse，idea中写程序测试等。
Standalone:Standalone是Spark自带的一个资源调度框架，它支持完全分布式。
Yarn:Hadoop生态圈里面的一个资源调度框架，Spark实现了AppalicationMaster接口,所以可以基于Yarn来计算的，国内用yarn的多。
Mesos:资源调度框架,国内用的少。