1、什么是Spark?
Spark是一个针对大规模数据处理的快速通用引擎。
类似MapReduce,都进行数据的处理
2、Spark的特点:
(1)基于Scala语言、Spark基于内存的计算
(2)快:基于内存
(3)易用:支持Scala、Java、Python
(4)通用:Spark Core、Spark SQL DataFrames(结构化数据查询)、Spark Streaming(支持高吞吐量、支持容错的实时流数据处理)、 MLlib(Spark 生态系统里用来解决大数据机器学习问题的模块)、Graphx(构建于Spark上的图计算模型),SparkR(一个R语言包,它提供了轻量级的方式使得可以在R语言中使用 Spark
)
(5)兼容性:完全兼容Hadoop
3、Spark体系结构:主从结构
客户端通过SparkContext对象提交任务申请,master接收客户端请求,根据客户端请求分配相应的资源给worker, worker启动Executor,正真提交任务的时候,直接由客户端提交给worker,不通过master。
(1)主节点:Master
(2)从节点:Worker
4、 Spark中的基本概念
在Spark中,有下面的基本概念。
Applica