Spark目录结构介绍
bin:提交运行Spark程序的脚本
conf:配置文件所在的目录
data:测试数据
examples:样例程序和源码
jars:jar lib的目录
LICENSE:顾名思义,license文件
licenses:依赖的第三方组件的licenses
logs:默认的日志目录
NOTICE
python:Python相关的脚本、文档和lib
R:R语言相关的文档、lib
README.md:readme文件,对于初学者很有用
RELEASE:发行版本介绍
sbin:启动和停止脚本目录
yarn:spark-yarn-shuffer.jar目录
单机部署
配置环境变量
export SCALA_HOME=/opt/scala #伪分布时scala可以不用配置使用内置的
PATH=$PATH:$SCALA_HOME/bin:$SPARK_HOME/bin
使配置文件生效
source /etc/profile
解压文件
spark-env.sh
cp spark-env.sh.template spark-env.sh
vi spark-env.sh
export JAVA_HOME=/opt/jdk #指定JDK路径
#设置Master的地址
SPARK_MASTER_HOST=master #主机名
#在运行模式中使用yarn就配置,否则不用配置
export HADOOP_CONF_DIR=/opt/hadoop/etc/hadoop
配置slaves文件
cp slaves.template slaves
vi slaves
完全分布:slaves文件用于配置集群里设为Worker节点的主机名
伪分布:master和worker共用同一个节点 使用本地主机名
localhost
启动spark
$SPARK_HOME/sbin/start-all.sh
停止spark
$SPARK_HOME/sbin/stop-all.sh
Web UI地址
http://节点的ip:8080
完全分布式
解压文件
tar xf ….
配置环境变量
….
进入配置文件conf目录
配置spark-env.sh文件
cp spark-env.sh.template spark-env.sh
vi spark-env.sh
export SPARK_MSTER_IP= #主节点机名
export SPARK_MASTER_PORT=7077 #提交任务端口号
export SPARK_WORKER_CORES=2 #分配核数 1核可以在一个节点上运行2个进程
export SPARK_WORKER_MEMORY=1G #运行内存
#使用yarn运行模式 默认使用standalone运行模式
export HADOOP_CONF_DIR=$HADOOP_HOME
配置slaves文件
cp slaves.template slaves
vi slaves
加入所有节点主机名
slave1
slave2
分发所有spark文件到从节点上
启动spark
$SPARK_HOME/sbin/start-all.sh
查看各个节点是否启动完整
至此安装结束!