1.Spark概述及特点
先看下官网的描述:

Spark:快如闪电般的统一分析引擎。
Apache Spark 是一个专门为大数据集处理的统一分析引擎。有以下特点:
Speed
Run workloads 100x faster.
Apache Spark achieves high performance for both batch and streaming data, using a state-of-the-art DAG scheduler, a query optimizer, and a physical execution engine.
- 速度
- 从上图看出Spark的处理速度要比Hadoop快100倍以上。
- Spark在批处理和流式处理上都具有极佳的性能。这是因为Spark使用了一种叫DAG的最佳调度,以及查询优化和物理执行引擎。
Ease of Use
Write applications quickly in Java, Scala, Python, R, and SQL.
Spark offers over 80 high-level operators that make it easy to build parallel apps. And you can use it interactively from the Scala, Python, R, and SQL shells.
- 易用
- 可以使用J

本文概述了Apache Spark的特点,包括其速度、易用性、通用性和跨平台运行能力。Spark与Hadoop的对比揭示了Spark在批处理、流处理、交互式计算和机器学习的优势。文章还探讨了两者的协作性,指出如何结合Hadoop的存储和调度能力与Spark的计算性能。最后,提到了Spark的多种应用场景,如SQL查询、流处理和机器学习,并简要预告了Spark的部署安装与使用。
最低0.47元/天 解锁文章
3356

被折叠的 条评论
为什么被折叠?



