spark安装

最新推荐文章于 2024-07-06 05:35:14 发布

因渺小而伟大

最新推荐文章于 2024-07-06 05:35:14 发布

阅读量154

点赞数

分类专栏： Hadoop 文章标签： hadoop 分布式 spark 大数据 linux

本文链接：https://blog.csdn.net/qq_43205282/article/details/103433764

版权

Hadoop 专栏收录该内容

8 篇文章 1 订阅

订阅专栏

Spark目录结构介绍

bin：提交运行Spark程序的脚本
conf：配置文件所在的目录
data：测试数据
examples：样例程序和源码
jars：jar lib的目录
LICENSE：顾名思义，license文件
licenses：依赖的第三方组件的licenses
logs：默认的日志目录
NOTICE
python：Python相关的脚本、文档和lib
R：R语言相关的文档、lib
README.md：readme文件，对于初学者很有用
RELEASE：发行版本介绍
sbin：启动和停止脚本目录
yarn：spark-yarn-shuffer.jar目录

单机部署

配置环境变量

export SCALA_HOME=/opt/scala       #伪分布时scala可以不用配置使用内置的
PATH=$PATH:$SCALA_HOME/bin:$SPARK_HOME/bin

使配置文件生效

source /etc/profile

解压文件

spark-env.sh
cp spark-env.sh.template spark-env.sh
vi spark-env.sh

export JAVA_HOME=/opt/jdk   #指定JDK路径
#设置Master的地址
SPARK_MASTER_HOST=master    #主机名
#在运行模式中使用yarn就配置，否则不用配置
export HADOOP_CONF_DIR=/opt/hadoop/etc/hadoop

配置slaves文件

cp slaves.template slaves
vi slaves

完全分布：slaves文件用于配置集群里设为Worker节点的主机名
伪分布：master和worker共用同一个节点使用本地主机名

localhost

启动spark

$SPARK_HOME/sbin/start-all.sh

停止spark

$SPARK_HOME/sbin/stop-all.sh

Web UI地址
http://节点的ip:8080

完全分布式

解压文件

tar xf ….

配置环境变量
….
进入配置文件conf目录
配置spark-env.sh文件

cp spark-env.sh.template spark-env.sh
vi spark-env.sh

export SPARK_MSTER_IP=                 #主节点机名
export SPARK_MASTER_PORT=7077         #提交任务端口号
export SPARK_WORKER_CORES=2     #分配核数 1核可以在一个节点上运行2个进程
export SPARK_WORKER_MEMORY=1G        #运行内存 
#使用yarn运行模式 默认使用standalone运行模式
export HADOOP_CONF_DIR=$HADOOP_HOME

配置slaves文件