大数据学习之路,Spark的介绍、部署以及wordcount实例的实现(1)

本文详细介绍了Apache Spark的简介,包括其作为多语言引擎的角色。接着,文章逐步指导如何安装和配置Scala环境,以及部署Spark 3.2.1。在配置完成后,作者通过wordcount实例验证了Spark的安装部署,还涵盖了History Server的配置,以保留任务历史记录。此外,文章还探讨了yarn-client和yarn-cluster模式的区别以及Driver和Executor的作用。
摘要由CSDN通过智能技术生成

Spark简介

什么是Spark?

Apache Spark是一种多语言引擎,用于在单节点机器或集群上执行数据工程、数据科学和机器学习。

Spark的安装

检查

检查HDFS、YARN环境

[vagary@vagary ~]$ jps
4736 NameNode
5490 NodeManager
5106 SecondaryNameNode
4870 DataNode
5881 Jps
5375 ResourceManager

检查Java环境

[vagary@vagary ~]$ java -version
java version "1.8.0_212"
Java(TM) SE Runtime Environment (build 1.8.0_212-b10)
Java HotSpot(TM) 64-Bit Server VM (build 25.212-b10, mixed mode)

Scala部署

下载Scala安装包

这些安装包在官网上都有
https://www.scala-lang.org/download/all.html,然后这里我们安装2.12.15版本的Scala

[vagary@vagary software]$ wget https://downloads.lightbend.com/scala/2.12.15/scala-2.12.15.tgz
解压Scala安装包
[vagary@vagary software]$ tar -zxvf scala-2.12.15.tgz -C ../app
创建软连接
[vagary@vagary app]$ ln -s scala-2.12.15 scala
配置环境变量

编辑全局变量文件,/etc/profile

[root@vagary ~]# vi /etc/profile

然后将环境变量加入

export SCALA_HOME=/home/vagary/app/scala
export PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$SCALA_HOME/bin:$PATH

配置完成退出后,使环境变量生效:

[root@vagary ~]# source /etc/profile

然后验证一下,出现版本号就表示配置成功:

[root@vagary ~]# scala -version
Scala code runner version 2.12.15 -- Copyright 2002-2021, LAMP/EPFL and Lightbend, Inc.

Spark部署

首先下载Spark安装包,从官网https://spark.apache.org/downloads.html上看版本很多,这里我们选择3.2.1的版本进行下载
在这里插入图片描述
注:我们Hadoop版本是3.1.3,然后这里下的spark是3.2.1,因为是自己学的,可以这么去用,如果服务器级别的开发是不能这么下载的,还是要下对应版本,或者预编译的。

预编译版的Spark

预编译好的,没有我们要的版本,所以我们要下载,从官网上下
https://spark.apache.org/downloads.html,版本很多,这里我们就用3.2.1,然后选择包类型为Source code,然后进行下载
在这里插入图片描述
解压之后进入dev目录下,修改make-distribution.sh文件

[vagary@vagary dev]$ vi make-distribution
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值