spark安装

Spark目录结构介绍

bin:提交运行Spark程序的脚本
conf:配置文件所在的目录
data:测试数据
examples:样例程序和源码
jars:jar lib的目录
LICENSE:顾名思义,license文件
licenses:依赖的第三方组件的licenses
logs:默认的日志目录
NOTICE
python:Python相关的脚本、文档和lib
R:R语言相关的文档、lib
README.md:readme文件,对于初学者很有用
RELEASE:发行版本介绍
sbin:启动和停止脚本目录
yarn:spark-yarn-shuffer.jar目录

单机部署

配置环境变量

export SCALA_HOME=/opt/scala       #伪分布时scala可以不用配置使用内置的
PATH=$PATH:$SCALA_HOME/bin:$SPARK_HOME/bin

使配置文件生效

source /etc/profile

解压文件

spark-env.sh
cp spark-env.sh.template spark-env.sh
vi spark-env.sh
export JAVA_HOME=/opt/jdk   #指定JDK路径
#设置Master的地址
SPARK_MASTER_HOST=master    #主机名
#在运行模式中使用yarn就配置,否则不用配置
export HADOOP_CONF_DIR=/opt/hadoop/etc/hadoop

配置slaves文件

cp slaves.template slaves
vi slaves

完全分布:slaves文件用于配置集群里设为Worker节点的主机名
伪分布:master和worker共用同一个节点 使用本地主机名

localhost

启动spark

$SPARK_HOME/sbin/start-all.sh

停止spark

$SPARK_HOME/sbin/stop-all.sh

Web UI地址
http://节点的ip:8080

完全分布式

解压文件

tar xf ….

配置环境变量
….
进入配置文件conf目录
配置spark-env.sh文件

cp spark-env.sh.template spark-env.sh
vi spark-env.sh
export SPARK_MSTER_IP=                 #主节点机名
export SPARK_MASTER_PORT=7077         #提交任务端口号
export SPARK_WORKER_CORES=2     #分配核数 1核可以在一个节点上运行2个进程
export SPARK_WORKER_MEMORY=1G        #运行内存 
#使用yarn运行模式 默认使用standalone运行模式
export HADOOP_CONF_DIR=$HADOOP_HOME

配置slaves文件

cp slaves.template slaves
vi slaves

加入所有节点主机名

slave1
slave2   

分发所有spark文件到从节点上
启动spark

$SPARK_HOME/sbin/start-all.sh

查看各个节点是否启动完整
至此安装结束!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值