Spark及生态圈概述

最新推荐文章于 2024-10-13 10:31:57 发布

yoyocheknow

最新推荐文章于 2024-10-13 10:31:57 发布

阅读量3.5k

点赞数

分类专栏： Spark 文章标签： hadoop spark

本文链接：https://blog.csdn.net/u011521382/article/details/81739046

版权

本文概述了Apache Spark的特点，包括其速度、易用性、通用性和跨平台运行能力。Spark与Hadoop的对比揭示了Spark在批处理、流处理、交互式计算和机器学习的优势。文章还探讨了两者的协作性，指出如何结合Hadoop的存储和调度能力与Spark的计算性能。最后，提到了Spark的多种应用场景，如SQL查询、流处理和机器学习，并简要预告了Spark的部署安装与使用。

摘要由CSDN通过智能技术生成

1.Spark概述及特点

先看下官网的描述：

这里写图片描述

Spark:快如闪电般的统一分析引擎。
Apache Spark 是一个专门为大数据集处理的统一分析引擎。有以下特点：

Speed
Run workloads 100x faster.
Apache Spark achieves high performance for both batch and streaming data, using a state-of-the-art DAG scheduler, a query optimizer, and a physical execution engine.

速度
- 从上图看出Spark的处理速度要比Hadoop快100倍以上。
- Spark在批处理和流式处理上都具有极佳的性能。这是因为Spark使用了一种叫DAG的最佳调度，以及查询优化和物理执行引擎。

Ease of Use
Write applications quickly in Java, Scala, Python, R, and SQL.
Spark offers over 80 high-level operators that make it easy to build parallel apps. And you can use it interactively from the Scala, Python, R, and SQL shells.