基于CentOS搭建spark集群

最新推荐文章于 2024-09-10 13:15:38 发布

今天的砖很烫手

最新推荐文章于 2024-09-10 13:15:38 发布

阅读量367

点赞数

分类专栏： spark 文章标签： spark搭建 spark

本文链接：https://blog.csdn.net/weixin_43125677/article/details/98475438

版权

spark 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

基于CentOS搭建spark集群

请先安装hadoop
spark安装地址
1．官网地址
http://spark.apache.org/
2．文档查看地址
https://spark.apache.org/docs/2.1.1/
3．下载地址
https://spark.apache.org/downloads.html
Standalone模式安装
1)上传并解压spark安装包
[atguigu@root opt]$ tar -zxvf spark-2.1.1-bin-hadoop2.7.tgz -C /opt/module/
[atguigu@root opt]$ mv spark-2.1.1-bin-hadoop2.7 spark
2)进入spark安装目录下的conf文件夹
[atguigu@root opt]$ cd spark/conf/
3)修改配置文件名称
[atguigu@root conf]$ mv slaves.template slaves
[atguigu@root conf]$ mv spark-env.sh.template spark-env.sh
4)修改slave文件，添加work节点：
[atguigu@root conf]$ vim slaves
node05
node06
node07
5)*修改spark-env.sh文件，添加如下配置： 46 47 行
[atguigu@root conf]$ vim spark-env.sh
SPARK_MASTER_HOST=node05
SPARK_MASTER_PORT=7077 服务端口
6)分发spark包
scp -r node06:`pwd`
7)启动
[atguigu@hadoop102 spark]$ sbin/start-all.sh
[atguigu@hadoop102 spark]$ util.sh
================atguigu@node05
3330 Jps
3238 Worker
3163 Master
================atguigu@node06
2966 Jps
2908 Worker
================atguigu@node07
2978 Worker
3036 Jps
8)WEB UI
node05:8080
9)注意: 如果遇到 “JAVA_HOME not set” 异常 ,可以在sbin目录下的spark-config.sh文件中加入如下配置：
export JAVA_HOME=XXXX
HA配置
1)zookeeper正常安装并启动
2)修改spark-env.sh文件添加如下配置：
[atguigu@hadoop102 conf]$ vim spark-env.sh

注释掉如下内容：
#SPARK_MASTER_HOST=node05
#SPARK_MASTER_PORT=7077
添加上如下内容：
export SPARK_DAEMON_JAVA_OPTS="
-Dspark.deploy.recoveryMode=ZOOKEEPER
-Dspark.deploy.zookeeper.url=node05,node06,node07
-Dspark.deploy.zookeeper.dir=/spark"
3)分发配置文件
scp -r node06:`pwd`
4)在node05上启动全部节点
[atguigu@root spark]$ sbin/start-all.sh
5)在node04上单独启动master节点
[atguigu@root spark]$ sbin/start-master.sh

Yarn模式安装
1)修改hadoop配置文件yarn-site.xml,添加如下内容：

<!--是否启动一个线程检查每个任务正使用的物理内存量，如果任务超出分配值，则直接将其杀掉，默认是true -->
<property>
        <name>yarn.nodemanager.pmem-check-enabled</name>
        <value>false</value>
</property>
<!--是否启动一个线程检查每个任务正使用的虚拟内存量，如果任务超出分配值，则直接将其杀掉，默认是true -->
<property>
        <name>yarn.nodemanager.vmem-check-enabled</name>
        <value>false</value>
</property>

2)修改spark-env.sh，添加如下配置：

 [atguigu@root conf]$ vim spark-env.sh
 YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop  
 HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

3)分发配置文件
所有节点

测试

bin/spark-submit 
--master yarn-clust  
--class com.my.StreamingT  
/opt/WordCount.jar 
hdfs://mycluster/user/tt/word 
hdfs://mycluster/user/tt/kkk

今天的砖很烫手

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录