Spark之单机、集群模式安装

单机模式实现步骤:

1)安装和配置好JDK

2)上传和解压Spark安装包

3)进入Spark安装目录下的conf目录

复制conf spark-env.sh.template 文件为 spark-env.sh

在其中修改,增加如下内容:

SPARK_LOCAL_IP=服务器IP地址

 

Spark单机模式启动

在bin目录下执行:sh spark-shell --master=local

 

启动后 发现打印消息

Spark context Web UI available at http://192.168.242.101:4040//Spark的浏览器界面

Spark context available as 'sc' (master = local, app id = local-1490336686508).//Spark提供了环境对象 sc

Spark session available as 'spark'.//Spark提供了会话独享spark

 

集群模式实现步骤:

1)上传解压spark安装包

2)进入spark安装目录的conf目录

3)配置spark-env.sh文件

 

配置示例:

#本机ip地址

SPARK_LOCAL_IP=hadoop01

#spark的shuffle中间过程会产生一些临时文件,此项指定的是其存放目录,不配置默认是在 /tmp目录下

SPARK_LOCAL_DIRS=/home/software/spark/tmp

export JAVA_HOME=/home/software/jdk1.8

 

4)在conf目录下,编辑slaves文件

配置示例:

hadoop01

hadoop02

hadoop03

5)配置完后,将spark目录发送至其他节点,并更改对应的  SPARK_LOCAL_IP 配置

 

启动集群

 

1)如果你想让 01 虚拟机变为master节点,则进入01 的spark安装目录的sbin目录

执行: sh start-all.sh

 

2)通过jps查看各机器进程,

01:Master +Worker

02:Worker

03:Worker

3)通过浏览器访问管理界面

http://192.168.234.11:8080

 

4)通过spark shell 连接spark集群

进入spark的bin目录

执行:sh  spark-shell.sh --master spark://192.168.234.11:7077

 

6)在集群中读取文件:

sc.textFile("/root/work/words.txt")

默认读取本机数据 这种方式需要在集群的每台机器上的对应位置上都一份该文件 浪费磁盘

7)所以应该通过hdfs存储数据

sc.textFile("hdfs://hadoop01:9000/mydata/words.txt");a

 

注:可以在spark-env.sh 中配置选项 HADOOP_CONF_DIR 配置为hadoop的etc/hadoop的地址 使默认访问的是hdfs的路径

注:如果修改默认地址是hdfs地址 则如果想要访问文件系统中的文件 需要指明协议为file 例如 sc.text("file:///xxx/xx")

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值