Spark 是一个基于内存的,用于大规模数据处理(离线计算、实时计算、快速查询(交互式查询))的统一分析引擎。
它内部的组成模块,包括 SparkCore,SparkSQL,SparkStreaming,SparkMLlib,SparkGraghx等…
它的特点:
- 快
Spark 计算速度是 MapReduce 计算速度的10-100倍 - 易用
MapReduce 支持1种计算模型,Spark 支持更多的计算模型 - 通用
Spark 能够进行离线计算、交互式查询(快速查询)、实时计算、机器学习、图计算 - 兼容性
Spark 支持大数据中的 Yarn 调度,支持 mesos。可以处理 hadoop 计算的数据。