Spark的安装

最新推荐文章于 2022-10-11 20:54:02 发布

飝鱻.

最新推荐文章于 2022-10-11 20:54:02 发布

阅读量210

点赞数 1

分类专栏： hadoop 文章标签： spark 大数据 hadoop 分布式 java

本文链接：https://blog.csdn.net/heiren_a/article/details/108431560

版权

hadoop 专栏收录该内容

32 篇文章 1 订阅

订阅专栏

Spark的安装

Spark是一种基于内存的、分布式的、大数据处理框架，在 Hadoop 的强势之下，Spark凭借着快速、简洁易用、通用性以及支持多种运行模式四大特征，冲破固有思路成为很多企业标准的大数据分析框架。

Spark Standalone模式

解压缩
tar -zxvf spark-2.2.0-bin-hadoop2.7.tgz
修改slaver文件
```
 slaver1
 slaver2
```

修改spark-env.sh文件

export JAVA_HOME=/usr/jdk1.8.0_144
export SPARK_MASTER_IP=master
export SPARK_MASTER_PORT=7077

分发到其他节点

scp -r /usr/spark-2.4.0-bin-hadoop2.7/ root@slaver1:/usr/
scp -r /usr/spark-2.4.0-bin-hadoop2.7/ root@slaver2:/usr/

启动Spark并且使用jps查看主节点是否有Master进程，从节点是否有Worker进程
```
start-all.sh
```

Spark On YARN模式

在前面的基础上在spark-env.sh文件上添加下面代码

export HADOOP_HOME=/usr/hadoop-2.7.1/
export HADOOP_CONF_DIR=/usr/hadoop-2.7.1/etc/hadoop

运行spark自带程序（启动hadoop集群，并且以Spark On YARN的cluster模式运行）

bin/spark-submit \
--class prg.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode cluster \
/opt/spark-2.4.0-bin-hadoop-2.7/examples/jars/spark-examples_2.11-2.4.0.jar

Spark HA搭建

删除Spark On YARN 模式中spark-env.sh文件中的SPARK_MASTER_IP属性配置，添加下面属性

  export SPARK_DAEMON_JAVA_OPTS=
"-Dspark.deploy.recoveryMode=ZOOKEEPER
 -Dspark.deploy.zookeeper.url=master:2181,slaver1:2181,slaver2:2181
 -Dspark.deploy.zookeeper.dir=/spark"