spark集群安装

基础配置:JDK,关闭防火墙,免秘钥登录(略)
1,配置3个节点,ip分别设置为192.168.1.17;192.168.1.18;192.168.1.19
2,在每个节点上都解压spark安装包(spark-2.0.1-bin-hadoop2.7)
3,在每个节点conf/spark-env.sh中配置:
SPARK_LOCAL_IP=当前主机地址,
HADOOP_CONF_DIR=/usr/local/soft/hadoop-2.7.1/etc/hadoop
4,在每个节点conf/spark-defaults.conf中配置:
spark.executorEnv.PYTHONHASHSEED=321
注:以下xxxmasteripxxx统统都是192.168.1.17
5,在master节点(192.168.1.17)中通过如下命令启动master
sbin/start-master.sh -h xxmasteripxx
6,在slave节点(192.168.1.18;192.168.1.19)中通过如下命令启动slave
sbin/start-slave.sh spark://xxxmasteripxxx:7077
7,通过客户端连接
(1)本地shell模式(只在执行spark-shell命令的单机上运行)
bin/spark-shell
在这里插入图片描述
(2)集群shell模式
bin/spark-shell --master spark://xxxmasteripxxx:7077
在这里插入图片描述
8,上面客户端连接方式运行状态可以在浏览器端可视化查看
地址 ip:4040
(1)单机模式
只有一个executor
在这里插入图片描述
(2)集群模式
有两个executor
在这里插入图片描述
9,spark节点管理界面访问,xxxmasteripxxx:8080
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
10,在集群中读取文件:

   (1) sc.textFile("/root/work/words.txt")

        默认读取本机数据,这种方式需要在集群的每台机器上的对应位置上都一份该文件 浪费磁盘,所以应该通过hdfs存储数据!!

        sc.textFile("hdfs://hadoop01:9000/mydata/words.txt");


(2)指定spark从hdfs上读取数据

    **可以在spark-env.sh 中配置选项 HADOOP_CONF_DIR 配置为hadoop的etc/hadoop的地址 使默认访问的是hdfs的路径

    **如果修改默认地址是hdfs地址 则如果想要访问文件系统中的文件 需要指明协议为file 例如 sc.text("file:///xxx/xx")

11,为了spark能够访问hive,需要如下配置。
(1)将hive-site.xml拷贝到spark/conf里,spark集群每个节点都要拷贝。
(2)将mysql驱动拷贝到spark/jar里,spark集群每个节点都要拷贝。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值