一 spark简介
Spark是基于内存计算的大数据分布式计算框架。Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量廉价硬件之上,形成集群。
二架构及生态介绍:
通常当需要处理的数据量超过了单机尺度(比如我们的计算机有4GB的内存,而我们需要处理100GB以上的数据)这时我们可以选择spark集群进行计算,有时我们可能需要处理的数据量并不大,但是计算很复杂,需要大量的时间,这时我们也可以选择利用spark集群强大的计算资源,并行化地计算,其架构示意图如下:

本文详细介绍了Spark的安装与使用,包括Spark的内存计算优势、DAG执行引擎、兼容性特点,以及Spark集群的搭建步骤,如下载安装包、配置环境和启动停止操作,展示了Spark作为Hadoop的高效替代方案。
订阅专栏 解锁全文
1058

被折叠的 条评论
为什么被折叠?



