spark-spark是什么

最新推荐文章于 2024-03-04 17:37:31 发布

lisery_nj

最新推荐文章于 2024-03-04 17:37:31 发布

阅读量4.7k

点赞数

分类专栏： spark 文章标签： spark

本文链接：https://blog.csdn.net/m0_37618809/article/details/82495544

版权

Spark是一个用于集群计算的快速平台，扩展了MapReduce模型，支持批处理、迭代算法、交互式查询和流处理。它在内存中计算以提高速度，并提供了Python、Java、Scala和SQL接口。Spark包括Spark Core、Spark SQL、Spark Streaming、MLlib和GraphX等组件，可在Hadoop、Mesos或独立调度器上运行，简化了数据分析和系统管理。

摘要由CSDN通过智能技术生成

        Spark 是一个用来实现快速而通用的集群计算的平台。
        在速度方面，Spark 扩展了广泛使用的 MapReduce 计算模型，而且高效地支持更多计算模式，包括交互式查询和流处理。在处理大规模数据集时，速度是非常重要的。速度快就意味着我们可以进行交互式的数据操作，否则我们每次操作就需要等待数分钟甚至数小时。Spark 的一个主要特点就是能够在内存中进行计算，因而更快。不过即使是必须在磁盘上进行的复杂计算，Spark 依然比 MapReduce 更加高效。
        总的来说，Spark 适用于各种各样原先需要多种不同的分布式平台的场景，包括批处理、迭代算法、交互式查询、流处理。通过在一个统一的框架下支持这些不同的计算，Spark使我们可以简单而低耗地把各种处理流程整合在一起。而这样的组合，在实际的数据分析过程中是很有意义的。不仅如此，Spark 的这种特性还大大减轻了原先需要对各种平台分别管理的负担。
        Spark 所提供的接口非常丰富。除了提供基于 Python、Java、Scala 和 SQL 的简单易用的API 以及内建的丰富的程序库以外，Spark 还能和其他大数据工具密切配合使用。例如，Spark 可以运行在 Hadoop 集群上，访问包括 Cassandra 在内的任意 Hadoop 数据源。

Spark 项目包含多个紧密集成的组件。Spark 的核心是一个对由很多计算任务组成的、运行在多个工作机器或者是一个计算集群上的应用进行调度、分发以及监控的计算引擎。由于Spark 的核心引擎有着速度快和通用的特点，因此 Spark 还支持为各种不同应用场景专门设计的高级组件，比如 SQL 和机器学习等。这些组件关系密切并且可以相互调用，这样你就可以像在平常软件件项目中使用程序库那样，组合使用这些的组件。
各组件间密切结合的设计原理有这样几个优点。首先