Spark入门(一)——Spark的“前世今生”

最新推荐文章于 2024-04-02 09:31:45 发布

问题不太大

最新推荐文章于 2024-04-02 09:31:45 发布

阅读量1.8w

点赞数 3

分类专栏： Spark 大数据文章标签： spark

本文链接：https://blog.csdn.net/M283592338/article/details/106241607

版权

Spark是一个快速的统一分析引擎，对比MapReduce，它在内存计算和迭代算法上有显著优势，提高了大规模数据处理的效率。Spark支持批处理、交互式查询、流处理等多种计算，提供Python、Java、Scala和SQL接口，兼容Hadoop等大数据工具。

摘要由CSDN通过智能技术生成

Spark的诞生

- Spark简介
- 计算流程

Spark简介

Spark 是一个用来实现快速而通用的集群计算的平台。
在速度方面，Spark 扩展了广泛使用的 MapReduce 计算模型，而且高效地支持更多计算模式，包括交互式查询和流处理。在处理大规模数据集时，速度是非常重要的。速度快就意味着我们可以进行交互式的数据操作，否则我们每次操作就需要等待数分钟甚至数小时。Spark 的一个主要特点就是能够在内存中进行计算，因而更快。不过即使是必须在磁盘上进行的复杂计算，Spark 依然比 MapReduce 更加高效。
总的来说，Spark 适用于各种各样原先需要多种不同的分布式平台的场景，包括批处理、迭代算法、交互式查询、流处理。通过在一个统一的框架下支持这些不同的计算，Spark使我们可以简单而低耗地把各种处理流程整合在一起。而这样的组合，在实际的数据分析过程中是很有意义的。不仅如此，Spark 的这种特性还大大减轻了原先需要对各种平台别管理的负担。Spark 所提供的接口非常丰富。除了提供基于 Python、Java、Scala 和 SQL 的简单易用的API 以及内建的丰富的程序库以外，Spark 还能和其他大数据工具密切配合使用。例如，Spark 可以运行在 Hadoop 集群上，访问包括 Cassandra 在内的任意 Hadoop 数据源。