spark环境构建及示例

本文详细介绍了如何搭建Spark standalone集群,包括安装、配置SSH无密登录和启动集群。接着,文章说明了如何使用Spark-shell,以及提交任务的方式。通过示例展示了Spark任务提交的参数解释和小实例的运行结果。
摘要由CSDN通过智能技术生成

spark提供了三种集群模式:standalone、yarn以及Mesos,三种模式里面standalone模式是一个基础,本篇先从standalone模式讲解一个基础的spark集群搭建过程,并且基于这个集群我们再介绍一下spark-shell的使用、spark提供的例子如何运行,以及开发一个简单的例子通过任务提交的方式运行起来。

Spark集群搭建(standalone模式)

安装

我们以两台机器作为集群搭建,其中spark-master作为master,同时也作为slave,名称为spark-slave0,另外一台机器作为slava,名称为spark-slave1,他们的网络架构如下图所示:

步骤1:进入spark官网下载bin安装包,http://spark.apache.org/downloads.html


步骤2:tar -xvf spark-2.0.1-bin-hadoop2.6

步骤3:cd  ./spark-2.0.1-bin-hadoop2.6/conf

步骤4:cp slaves.template slaves

步骤5:cp spark-env.sh.template spark-env.sh

步骤6:修改启动环境变量脚本vim spark-env.sh,添加

export JAVA_HOME="/usr/local/java"
export SCALA_HOME="/usr/local/scala"
export SPARK_HOME="/data/spark-2.0.1-bin-hadoop2.6"
export SPARK_MASTER_HOST=spark-master
export SPARK_WORKER_CORES=1
export SPARK_WORKER_INSTANCES=1
export SPARK_MASTER_PORT=7077
export SPARK_WORKER_MEMORY=1g
export MASTER=spark://${SPARK_MASTER_IP}:${SPARK_MASTER_PORT}

步骤7:修改slaves配置,vim slaves,添加

spark-slave0
spark-slave1

步骤8:系统环境变量配置(假设系统已安装jdk及scala),vim /etc/profile,添加

export JAVA_HOME="/usr/local/java"
export SPARK_HOME="/data/spark-2.0.1-bin-hadoop2.6"
export PATH=$JAVA_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib

步骤9:source /etc/profile

步骤10:修改host配置 vim /etc/hosts 添加

A-host-ip spar
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值