Spark2.4.3基本原理与安装

最新推荐文章于 2023-05-05 17:02:16 发布

宝罗

最新推荐文章于 2023-05-05 17:02:16 发布

阅读量440

点赞数

分类专栏： hadoop 文章标签： spark big data hadoop

本文链接：https://blog.csdn.net/hhhhhhhhhhsdadaw/article/details/120867784

版权

本文介绍了Spark作为一个高效、通用的集群计算平台，其对比MapReduce的优势在于内存计算能力。文章详细阐述了Spark的安装步骤，包括下载、解压、配置文件修改和启动过程，旨在帮助读者快速搭建Spark环境。

摘要由CSDN通过智能技术生成

spark是一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP实验室开发的通用内存并行计算框架，用来构建大型的、低延迟的数据分析应用程序。它扩展了广泛使用的MapReduce计算

模型。高效的支撑更多计算模式，包括交互式查询和流处理。spark的一个主要特点是能够在内存中进行计算，及时依赖磁盘进行复杂的运算，Spark依然比MapReduce更加高效。

中间结果输出：基于MapReduce的计算引擎通常会将中间结果输出到磁盘上，进行存储和容错。出于任务管道承接的，考虑，当一些查询翻译到MapReduce任务时，往往会产生多个Stage，而这些串联的Stage又依赖于底层文件系统（如HDFS）来存储每一个Stage的输出结果。
Spark是MapReduce的替代方案，而且兼容HDFS、Hive，可融入Hadoop的生态系统，以弥补MapReduce的不
下面是spark的安装

关注

专栏目录