Ubuntu部署spark

本文详细介绍了如何在Linux系统上部署Spark,包括本地模式、Standalone模式和SparkonYARN模式,涉及HDFS和YARN的配置,以及环境变量、配置文件和测试步骤。
摘要由CSDN通过智能技术生成

首先完成HDFS和yarn的部署:

https://blog.csdn.net/m0_63500252/article/details/138465542?spm=1001.2014.3001.5502

下载spark

wget https://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-3.5.1/spark-3.5.1-bin-hadoop3.tgz

local模式部署:

解压下载好的spark安装包

tar -zxvf spark-3.5.1-bin-hadoop3.tgz -C /export/server/

配置环境变量:

在/etc/profile添加以下内容:

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export SPARK_HOME=/export/server/spark
# 这里填你自己python解释器的位置
export PYSPARK_PYTHON=/export/server/miniconda3/envs/develop/bin/python3.8
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

然后source /etc/profile

接着在~/.bashrc添加以下内容

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export PYSPARK_PYTHON=/export/server/miniconda3/envs/develop/bin/python3.8

测试:

在spark/bin运行pyspark,出现以下内容

(这里警告是因为没设置SPARK_LOCAL_IP,在spark-env.sh中设置)

浏览器可以打开4040端口:

至此local模式部署完成。

standalone模式部署

由于是单机配置,spark的master和worker进程都配置在localhost上。前提是先部署好local模式并且安装好python。

在spark/conf目录下

mv workers.template workers
vim workers

添加workers机器的位置,这里不做修改了。

接着输入

mv spark-env.sh.template spark-env.sh
vim spark-env.sh

添加以下内容

JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
HADOOP_CONF_DIR=/export/server/hadoop/etc/hadoop
YARN_CONF_DIR=/export/server/hadoop/etc/hadoop

export SPARK_MASTER_HOST=localhost
export SPARK_MASTER_PORT=7077
SPARK_MASTER_WEBUI_PORT=8080

SPARK_WORKER_CORES=1
SPARK_WORKER_MEMORY=1g
SPARK_WORKER_PORT=7078
SPARK_WORKER_WEBUI_PORT=8081

# 将spark程序运行的历史日志存到sparklog
SPARK_HISTORY_OPTS="-Dspark.history.fs.logDirectory=hdfs://localhost:8020/sparklog/ -Dspark.history.fs.cleaner.enabled=true"

接下来在hdfs中创建sparklog目录,并授权,记得先启动hdfs

输入

hdfs dfs -mkdir /sparklog
hdfs dfs -chmod 777 /sparklog

配置spark-defaults.conf

mv spark-defaults.conf.template spark-defaults.conf

打开后添加

spark.eventLog.enabled 	true
spark.eventLog.dir	 hdfs://localhost:8020/sparklog/ 
spark.eventLog.compress 	true

配置log4j2.properties

mv log4j2.properties.template log4j2.properties

打开

修改这里为warn,以免日志全部输出到控制台,可改可不改。

可以启动spark集群了

sbin/start-all.sh

webui也能正常打开

sparkshell可以连接到spark://localhost:7077

到此配置完毕。

spark on yarn模式部署

这种部署模式的好处是只需在yarn集群中的一台机器中部署spark,就可以将任务提交到yarn集群中运行,可以节约资源,spark的master由yarn的resourcemanager代替了,worker则由nodemanager代替。

要在yarn中提交spark任务,只需要

./pyspark --master yarn

至此部署完成。

  • 5
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: 基于UbuntuSpark集群部署与测试需要以下步骤: 1. 安装Java和Scala:Spark需要Java和Scala的支持,因此需要先安装这两个软件包。 2. 下载Spark:从Spark官网下载最新版本的Spark。 3. 安装Spark:将Spark解压到一个目录中,并设置环境变量。 4. 配置Spark集群:在Spark的conf目录下,创建一个名为spark-env.sh的文件,并设置SPARK_MASTER_IP和SPARK_WORKER_CORES等参数。 5. 启动Spark集群:在Spark的sbin目录下,运行start-master.sh和start-slaves.sh脚本,启动Spark集群。 6. 测试Spark集群:使用Spark自带的示例程序,如WordCount,测试Spark集群的性能和可靠性。 7. 部署应用程序:将自己的应用程序打包成jar包,并使用spark-submit命令提交到Spark集群中运行。 以上是基于UbuntuSpark集群部署与测试的基本步骤,需要注意的是,Spark集群的配置和调优需要根据具体的应用场景进行调整。 ### 回答2: Spark是一个开源的、快速而通用的集群计算系统,主要用于大数据处理。部署Spark集群需要选择操作系统,目前较为流行的是选择Ubuntu作为操作系统。下面介绍基于UbuntuSpark集群部署与测试。 1. 安装Ubuntu操作系统 首先需在每个节点上安装Ubuntu系统。推荐使用Ubuntu Server版本,该版本缺省不安装图形界面和大部分的应用程序,更适合用于服务器操作。 2. 安装Java环境 Spark是基于Java编写的,因此每个节点上都必须安装Java环境。可以选择安装OpenJDK或Oracle JDK。建议选择较新的Java版本,可以提高Spark的性能。 3. 下载SparkSpark官网(http://spark.apache.org/)下载最新版本的Spark并解压。 4. 配置Spark 首先在每个节点上创建一个Spark用户,并为其分配一个唯一的用户ID。接下来,需要在Spark的默认配置文件中配置相关参数,例如Worker数量、内存大小、Hadoop配置等。 5. 部署Spark集群 可以使用多种方式来部署Spark集群,例如手动部署、使用Puppet、Chef等自动化配置工具。手动部署需要在每个节点上逐个安装Spark并手动配置,而自动化配置工具则可以自动在多个节点上安装并配置Spark,省时省力。 6. 测试Spark集群 在Spark集群部署完成后,可以使用Spark自带的示例程序进行测试。可以先在一个节点上运行示例程序,确保程序能够正常运行。 以上就是基于UbuntuSpark集群部署与测试的介绍。没有经验的用户可以尝试使用自动化配置工具来部署Spark集群,使部署过程更加轻松。通过合理的配置,Spark集群可以高效地处理海量数据,为用户提供更为便捷、高效的大数据处理体验。 ### 回答3: Ubuntu是一款开源的操作系统,在大数据领域,Ubuntu常被用作Spark集群的部署环境。Spark是一个快速的分布式计算框架,具有高性能和多功能性的设计。在这里,我将为大家介绍基于UbuntuSpark集群部署与测试的步骤。 1. 部署Spark Cluster 首先,我们需要在Ubuntu系统上安装Java、Scala和Spark。为了简化部署过程,我们可以使用类似Ansible的自动化工具进行安装和配置。 另一种常用的部署方法是手动安装。我们需要下载相关二进制文件,将它们解压缩到合适的目录,并设置环境变量。这里有一些基本的指令: $ sudo apt-get install default-jre $ sudo apt-get install scala $ wget http://mirror.bit.edu.cn/apache/spark/spark-3.0.0/spark-3.0.0-bin-hadoop2.7.tgz $ tar -xvzf spark-3.0.0-bin-hadoop2.7.tgz $ sudo mv spark-3.0.0-bin-hadoop2.7 /usr/local/spark $ echo "export PATH=$PATH:/usr/local/spark/bin" >> ~/.bashrc $ source ~/.bashrc 2.配置环境变量 在Ubuntu上运行Spark,需要设置以下环境变量: SPARK_HOME:为Spark的安装路径。 JAVA_HOME:为Java的安装路径。 PATH:为Spark二进制文件的可执行路径。 另外,我们需要为每个节点分配IP地址。例如,我们可以在/etc/hosts中添加以下信息: 192.168.1.100 node1 192.168.1.101 node2 192.168.1.102 node3 3.测试Spark Cluster 在Spark集群上进行测试,可以通过启动Spark Shell进行交互式分析。我们可以在Ubuntu命令行中输入: $ spark-shell 这将启动Spark Shell,并显示Spark版本和其他信息。如果成功启动,我们可以使用以下命令测试Spark集群: val arrays = Array(1, 2, 3, 4, 5) val rdd = sc.parallelize(arrays) #创建RDD rdd.collect() #输出RDD中的数据 如果一切正常,Spark Shell将输出包含1、2、3、4、5的表格数据。这说明我们已成功连接到Spark集群并运行RDD分析。 综上所述,基于UbuntuSpark集群是一种快速、简单和高效的方式,用于大数据分析和处理。在正确配置环境变量和启动集群后,我们可以通过Spark Shell测试RDD分析,并开始构建自己的大型分布式计算应用程序。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值