Spark概述及安装

最新推荐文章于 2024-10-15 23:11:10 发布

m0_70135650

最新推荐文章于 2024-10-15 23:11:10 发布

阅读量307

点赞数 4

文章标签： spark 大数据分布式

本文链接：https://blog.csdn.net/m0_70135650/article/details/139845706

版权

Spark概述

在数据计算层，作为Hadoop核心组成的MapReduce可以结合Hive通过类SQL的方式进行数据的离线计算（当然也可以编写独立的MapReduce应用程序进行计算）；而Spark既可以做离线计算（Spark SQL），又可以做实时计算（Spark Streaming），它们底层都使用的是Spark的核心（Spark Core）。

Spark初识

Apache Spark是一个快速通用的集群计算系统，是一种与Hadoop相似的开源集群计算环境，但是Spark在一些工作负载方面表现得更加优越。它提供了Java、Scala、Python和R的高级API，以及一个支持通用的执行图计算的优化引擎。它还支持高级工具，包括使用SQL进行结构化数据处理的Spark SQL、用于机器学习的MLlib、用于图处理的GraphX，以及用于实时流处理的Spark Streaming。

Spark的主要特点

快速

MapReduce主要包括Map和Reduce两种操作，且将多个任务的中间结果存储于HDFS中。与MapReduce相比，Spark可以支持包括Map和Reduce在内的多种操作，这些操作相互连接形成一个有向无环图(Directed Acyclic Graph, DAG)，各个操作的中间数据会被保存在内存中。因此，Spark处理速度比MapReduce更快。

- 易用

Spark可以使用Java、Scala、Python、R和SQL快速编写应用程序。此外，Spark还提供了超过80个高级算子，使用这些算子可以轻松构建应用程序。

- 通用

Spark拥有一系列库，包括SQL和DataFrame、用于机器学习的MLlib、用于图计算的GraphX、用于实时计算的Spark Streaming，可以在同一个应用程序中无缝地组合这些库。

- 到处运行

Spark可以使用独立集群模式运行（使用自带的独立资源调度器，称为Standalone模式），也可以运行在Hadoop YARN、Mesos（Apache下的一个开源分布式资源管理框架）等集群管理器之上，并且可以访问HDFS、HBase、Hive等数百个数据源中的数据。