Spark简介(2022-06-14A)
Spark提供了一个分布式的、弹性的、数据集合(RDD)、我们在Scala当中学习的Seq、Set、Map集合的操作,可以直接应用在RDD(集合),进行Spark数据分析。
Spark集群构建:
Spark框架,没有太多的要求,只是一个计算框架。主从配置,比较方便
- N台机器构建都可以,并且可以很轻松配置出高可用集群。
安装配置(借助两台主机,完成一个Spark高可用的集群)
- 上传安装包、解压
tar -zxvf spark-3.1.2-bin-hadoop2.7.tgz -C /usr/hadoop/