spark操作流程

最新推荐文章于 2023-07-15 16:58:01 发布

会开花的小薄荷

最新推荐文章于 2023-07-15 16:58:01 发布

阅读量182

点赞数

文章标签： spark hadoop 大数据

本文链接：https://blog.csdn.net/qq_60142726/article/details/131016173

版权

spark安装与启动（Standalone模式、普通用户）

1.下载对应的spark包

https://archive.apache.org/dist/spark/spark-3.0.0/ 是3.0.0版本结合你使用的hadoop版本

2.解压spark安装包并重命名

tar -zxvf /app/module/spark-3.0.0-bin-hadoop2.7.tgz -C /app/module/

mv spark-3.0.0-bin-hadoop2.7 spark-3.0.0

3.修改配置文件(前提：在windows下已经修改了ip和主机名的映射关系)

3.1修改spark-env.sh文件

进入到spark-3.0.0/conf目录

cd spark-3.0.0/conf

复制并重命名

cp spark-env.sh.template spark-env.sh

vim spark-env.sh

添加如下内容：

#配置java环境变量
#export JAVA_HOME=/app/module/jdk1.8.0_211
#指定Master的IP
export SPARK_MASTER_HOST=hadoop01
#指定Master的端口
export SPARK_MASTER_PORT=7077

3.2修改slaves

cp slaves.template slaves

指定spark集群中的从结点IP

vim slaves

添加如下内容：

hadoop02
hadoop03

4.分发文件

scp -r /app/module/spark-3.0.0/ hadoop02:/app/module/

scp -r /app/module/spark-3.0.0/ hadoop03:/app/module/

5.启动

为了全局都能使用，所以修改系统变量

su root

vim /etc/profile

添加如下内容：

export JAVA_HOME=/app/module/jdk1.8.0_211
export HADOOP_HOME=/app/module/hadoop-3.1.3
export HIVE_HOME=/app/module/hive-3.1.2
export SQOOP_HOME=/app/module/sqoop-1.4.6
export ZOOKEEPER_HOME=/app/module/zookeeper-3.4.10
export FLUME_HOME=/app/module/flume-1.8.0
export SPARK_HOME=/app/module/spark-3.0.0
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HIVE_HOME/bin:$SQOOP_HOME/bin:$ZOOKEEPER_HOME/bin:$FLUME_HOME/bin:$SPARK_HOME/bin:$SPARK_HOME/sbin

source /etc/profile

启动spark集群

su lgy

start-master.sh（关闭 stop-master.sh）

start-slaves.sh（关闭 stop-slaves.sh）

使用spark计算圆周率pi

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://ip地址:7077 \
--executor-memory 1G \
--total-executor-cores 1 \
examples/jars/spark-examples_2.12-3.0.0.jar \
10