Ubuntu22.04下安装Spark3.2.0(Local模式)

本文详细指导如何在UbuntuKylin环境下安装Hadoop3.1.3、JDK1.8,以及Spark3.2.0的Local模式,包括伪分布式配置、Spark环境变量设置和验证安装的方法,适合Spark初学者和技术人员参考。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

一、版本信息

二、安装Hadoop(伪分布式)

三、安装JAVA JDK

四、安装Spark(Local模式)

1.将Spark安装包移到下载目录中

2.下载Spark并确保hadoop用户对Spark目录有操作权限

五、修改Spark的配置文件

六、验证Spark是否安装成功


一、版本信息

虚拟机产品:VMware® Workstation 17 Pro   虚拟机版本:17.0.0 build-20800274

ISO映像文件:ubuntukylin-22.04-pro-amd64.iso

Hadoop版本:Hadoop 3.1.3

JDK版本:Java JDK 1.8

Spark版本:Spark 3.2.0

这里有我放的百度网盘下载链接,读者可以自行下载:

链接:https://pan.baidu.com/s/121zVsgc4muSt9rgCWnJZmw 
提取码:wkk6

也可去Spark官网进行下载:Spark官方下载地址

注意:其中的ISO映像文件为ubuntukylin-16.04.7版本的而不是22.04版本,22.04版本内存过大无法上传,见谅!!!

附上Ubuntu Kylin(优麒麟)官网下载:优麒麟 (ubuntukylin.com)        读者可以前去官网下载ISO映像文件


现附上相关资料,读者可通过这些资料来查看自己的Spark与其他组件(例如JDK,Hadoop,Yarn,Hive,Kafka等)的兼容版本、Spark 3.2.0官方文档、Spark 流式处理编程指南、PySpark 3.2.0官方文档等:

1. 查看Spark与Hadoop等其他组件的兼容版本

查看Spark与Hadoop等其他组件的兼容版本 - 技术研究与问题解决 - 博客园 (cnblogs.com)icon-default.png?t=O83Ahttps://www.cnblogs.com/liuys635/p/12371793.html

2. Github中Spark开源项目地址

apache/spark: Apache Spark - A unified analytics engine for large-scale data processing (github.com)icon-default.png?t=O83Ahttps://github.com/apache/spark

3. Spark 3.2.0官方文档

Overview - Spark 3.2.0 Documentation (apache.org)icon-default.png?t=O83Ahttps://spark.apache.org/docs/3.2.0/index.html4. Spark 流式处理编程指南

Spark Streaming - Spark 3.2.0 Documentation (apache.org)icon-default.png?t=O83Ahttps://spark.apache.org/docs/3.2.0/streaming-programming-guide.html5. PySpark 3.2.0官方文档

Getting Started — PySpark 3.2.0 documentation (apache.org)icon-default.png?t=O83Ahttps://spark.apache.org/docs/3.2.0/api/python/getting_started/index.html


二、安装Hadoop(伪分布式)

Spark的安装过程较为简单,在已安装好 Hadoop 的前提下,经过简单配置即可使用。

如果读者没有安装Hadoop3.1.3(伪分布式),请访问林子雨老师的Hadoop3.1.3安装教程进行Hadoop的伪分布式安装:Hadoop3.1.3安装教程_单机/伪分布式配置_Hadoop3.1.3/Ubuntu18.04(16.04)_厦大数据库实验室博客https://dblab.xmu.edu.cn/blog/2441-2/icon-default.png?t=O83Ahttps://dblab.xmu.edu.cn/blog/2441-2/

三、安装JAVA JDK

安装Hadoop3.1.3的过程就已经要求安装JAVA JDK1.8了。如果没有,请参考林子雨老师的Hadoop安装教程_单机/伪分布式配置_Hadoop3.1.3/Ubuntu18.04进行安装配置。

四、安装Spark(Local模式)

在安装Spark之前默认读者已经在虚拟机软件上安装VMware Tools,若没有安装请移步于本人的另一篇文章:真·保姆级——在VMware的Ubuntukylin上进行Hadoop单机/伪分布式安装时安装VMware Tools后虚拟机与物理机之间无法传输文件和复制粘贴的问题(附Ubuntu更改默认登录用户)-CSDN博客

1.将Spark安装包移到下载目录中

将物理机上下载的Spark安装包拖拽到读者虚拟机Ubuntu系统家目录中的下载目录中:

2.下载Spark并确保hadoop用户对Spark目录有操作权限

sudo tar -zxf ~/下载/spark-3.2.0-bin-without-hadoop.tgz -C /usr/local/
cd /usr/local
sudo mv ./spark-3.2.0-bin-without-hadoop/ ./spark
sudo chown -R hadoop ./spark          # 此处的 hadoop 为你的用户名
  • 将Apache Spark压缩包解压到/usr/local/目录下
  • 切换当前工作目录到/usr/local
  • 将解压出来的Spark目录重命名为spark,以便于记忆和管理
  • /usr/local/spark目录及其子目录和文件的所有权更改为用户hadoop,确保该用户对Spark目录有操作权限,便于后续的配置和使用

五、修改Spark的配置文件

安装Spark后,还需要修改Spark的配置文件spark-env.sh

cd /usr/local/spark
cp ./conf/spark-env.sh.template ./conf/spark-env.sh
  • 切换当前工作目录到/usr/local/spark。这个目录是Apache Spark的安装目录,之前的步骤中已经将Spark解压并重命名到这个位置
  • 创建一个可编辑的环境配置文件spark-env.sh,基于模板文件spark-env.sh.template。通过编辑这个文件,可以自定义Spark的运行环境,例如设置JVM选项、Spark的工作节点内存限制、日志配置等

编辑spark-env.sh文件:

vim ./conf/spark-env.sh

在第一行添加以下配置信息并保存:

export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)

配置完成后就可以直接使用,不需要像Hadoop运行启动命令。

六、验证Spark是否安装成功

通过运行Spark自带的示例,验证Spark是否安装成功。

cd /usr/local/spark
bin/run-example SparkPi

运行Apache Spark自带的一个示例程序 —— SparkPi。

这个示例程序计算π的值,是一个经典的计算密集型任务,常用来测试Spark集群的安装是否成功以及其基本的运行情况

下面详细解释这些命令的作用:

  1. cd /usr/local/spark:这条命令将当前的工作目录切换到Apache Spark的安装目录。前提是读者已经按照之前的指导安装并配置了Spark,并且将其安装在了/usr/local/spark目录下。

  2. bin/run-example SparkPi:这条命令实际上是运行Spark自带的一个示例程序。 

  • bin/run-example 是一个脚本,位于Spark安装目录下的bin文件夹中。它用于运行Spark自带的示例程序。
  • SparkPi 是要运行的示例程序的名称。这个程序通过蒙特卡洛方法计算π的值。

具体来说,这个命令的执行过程如下:

  • 当执行 bin/run-example SparkPi 命令时,Spark会启动一个应用程序实例,并执行计算π值的任务。
  • 这个任务会被分解成多个小任务(task),并可能在一个或多个工作节点(如果读者配置了Spark集群的话)上并行执行。
  • 执行完成后,程序会输出计算得到的π值。

执行时会输出非常多的运行信息,输出结果不容易找到,bin/run-example SparkPi 2>&1 | grep "Pi is"这条命令的作用是运行SparkPi示例程序,然后搜索并显示所有包含“Pi is”的输出行,显示程序计算出的π值的那一行,因此这个命令可以帮助用户直接查看计算结果,而不必手动从可能很长的程序输出中寻找相关信息。

bin/run-example SparkPi 2>&1 | grep "Pi is"

下面详细解释这些命令的作用:

  1. bin/run-example SparkPi:运行Spark自带的示例程序SparkPi。这个程序计算π的值,是一个用来测试Spark安装和配置是否正确的经典示例。

  2. 2>&1:这部分是重定向命令。2代表标准错误(stderr),1代表标准输出(stdout)。2>&1的意思是将标准错误重定向到标准输出,这样错误信息和正常输出信息都会被发送到同一个地方(即标准输出)。

  3. | grep "Pi is":‘|'是管道符,它的作用是将前一个命令的输出作为后一个命令的输入。grep是一个文本搜索工具,可以根据指定的模式(pattern)搜索文本。这里,grep "Pi is"表示搜索包含“Pi is”的行。

过滤后的运行结果如下图示:

至此,Spark安装成功!!!

要在Linux安装Pyspark,你可以按照以下步骤进行操作: 1. 首先,下载并解压Pyspark。你可以使用wget命令下载Pyspark的压缩包,例如:wget http://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-2.4.4/spark-2.4.4-bin-hadoop2.7.tgz。然后使用tar命令解压压缩包,例如:tar -zxvf spark-2.4.4-bin-hadoop2.7.tgz。 2. 将解压后的Pyspark文件夹移动到你想要安装的位置。例如,你可以使用mv命令将文件夹重命名为spark,并将其移动到/usr/local目录下,即:mv spark-2.4.4-bin-hadoop2.7.tgz spark3. 编辑/etc/profile文件,将Pyspark的路径添加到环境变量中。你可以在文件末尾添加以下两行命令: export SPARK_HOME=/usr/local/spark export PATH=$PATH:$SPARK_HOME/bin 同时,你还可以添加SPARK_PYTHON变量来指定Pyspark使用的Python编译器,例如:export SPARK_PYTHON=/usr/local/bin/python3。 4. 刷新配置文件,使其生效。你可以运行source /etc/profile命令来刷新配置文件。 5. 验证Pyspark安装是否成功。你可以打开终端并运行pyspark命令来启动Pyspark。如果一切正常,你将看到类似以下信息的输出: Using Spark&#39;s default log4j profile: org/apache/spark/log4j-defaults.properties Setting default log level to "WARN". To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel). Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ &#39;_/ /___/ .__/\_,_/_/ /_/\_\ version 3.2.0 /_/ Using Python version 3.7.7 (default, Jan 28 2022 17:56:52) Spark context Web UI available at http://VM-20-8-centos:4040 Spark context available as &#39;sc&#39; (master = local[*], app id = local-1643543698074). SparkSession available as &#39;spark&#39;. 这样,你就成功地在Linux安装了Pyspark。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [Linux服务器下PySpark环境安装](https://blog.csdn.net/js010111/article/details/122755433)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* [Linux 安装 pySpark](https://blog.csdn.net/m0_55389447/article/details/122658477)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

哇咔咔哇咔

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值