1.Spark概述及特点
先看下官网的描述:
Spark:快如闪电般的统一分析引擎。
Apache Spark 是一个专门为大数据集处理的统一分析引擎。有以下特点:
Speed
Run workloads 100x faster.
Apache Spark achieves high performance for both batch and streaming data, using a state-of-the-art DAG scheduler, a query optimizer, and a physical execution engine.
- 速度
- 从上图看出Spark的处理速度要比Hadoop快100倍以上。
- Spark在批处理和流式处理上都具有极佳的性能。这是因为Spark使用了一种叫DAG的最佳调度,以及查询优化和物理执行引擎。
Ease of Use
Write applications quickly in Java, Scala, Python, R, and SQL.
Spark offers over 80 high-level operators that make it easy to build parallel apps. And you can use it interactively from the Scala, Python, R, and SQL shells.
- 易用
- 可以使用J