spark集群

Spark 2.1.0 安装与配置

最新推荐文章于 2025-04-27 22:03:38 发布

转载最新推荐文章于 2025-04-27 22:03:38 发布 · 58 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：https://my.oschina.net/u/2343310/blog/891204

本文介绍如何安装与配置 Spark 2.1.0 版本，包括环境变量设置、配置文件修改等内容，并针对性能优化提供了一系列参数调整建议。

2019独角兽企业重金招聘Python工程师标准>>>

安装包：http://d3kbcqa49mib13.cloudfront.net/spark-2.1.0-bin-hadoop2.7.tgz
http://www.scala-lang.org/download/2.12.2.html

环境基于Hadoop的，前面已搭建完成

设置spark环境变量
export SCALA_HOME=/usr/local/scala
export SPARK_HOME=/usr/local/spark-2.1.0/
export PATH=$PATH:$SPARK_HOME/bin:$SCALA_HOME/bin

修改配置文件
cd /usr/local/spark-2.1.0/conf
cp spark-defaults.conf.template spark-defaults.conf
vim spark-defaults.conf

#eventLog是否生效（建议开启，可以对已完成的任务记录其详细日志）
spark.eventLog.enabled true
#eventLog是否启用压缩（cpu性能好的情况下建议开启，以减少内存等的占用）
spark.eventLog.compress true
#eventLog的文件存放位置，与spark-env.sh中的history server配置位置一致,这两个位置必须手动创建 hadoop fs -mkdir -p /tmp/spark/applicationHistory,否则spark启动失败
spark.eventLog.dir hdfs://10.68.4.49:9000/tmp/spark/applicationHistory
#广播块大小
spark.broadcast.blockSize 8m
#Executor的cpu核数
spark.executor.cores 1
#Executor的内存大小
spark.executor.memory 512m
#Executor心跳交换时间间隔
spark.executor.heartbeatInterval 20s

#文件抓取的timeout
spark.files.fetchTimeout 120s
#作业最大失败次数（达到此次数后，该作业不再继续执行，运行失败）
spark.task.maxFailures 6
#设置序列化机制（默认使用java的序列化，但是速度很慢，建议使用Kryo）
spark.serializer org.apache.spark.serializer.KryoSerializer
#序列化缓冲大小
spark.kryoserializer.buffer.max 256m
#Akka调度帧大小
#spark.akka.frameSize 128
spark.rpc.message.maxSize 128
#默认并行数
spark.default.parallelism 20
#最大网络延时
#spark.network.timeout 300s #最大网络延时
spark.speculation true #Spark推测机制（建议开启）

vim spark-env.sh
SPARK_LOCAL_IP=10.68.4.49
#本机ip或hostname
SPARK_LOCAL_DIRS=/data/spark/local
#配置spark的local目录
SPARK_MASTER_IP=10.68.4.49
#master节点ip或hostname
SPARK_MASTER_WEBUI_PORT=8080
#web页面端口

export SPARK_MASTER_OPTS="-Dspark.deploy.defaultCores=4"
#spark-shell启动使用核数
SPARK_WORKER_CORES=4
#Worker的cpu核数
SPARK_WORKER_MEMORY=4g
#worker内存大小
SPARK_WORKER_DIR=/data/spark/work
#worker目录
export SPARK_WORKER_OPTS="-Dspark.worker.cleanup.enabled=true -Dspark.worker.cleanup.appDataTtl=604800"
#worker自动清理及清理时间间隔
export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18080 -Dspark.history.retainedApplications=3 - Dspark.history.fs.logDirectory=hdfs://10.68.4.49:9000/tmp/spark/applicationHistory"
#history server页面端口、备份数、log日志在HDFS的位置
SPARK_LOG_DIR=/data/log/spark
#配置Spark的log日志目录

export JAVA_HOME=/data/java/jdk #配置java路径
export SCALA_HOME=/usr/local/scala #配置scala路径

export SPARK_MASTER_HOST=10.68.4.49
export SPARK_WORKER_MEMORY=10240m

export HADOOP_HOME=/usr/local/hadoop/lib/native #配置hadoop的lib路径
export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop/ #配置hadoop的配置路径

复制到其它从服务器
scp -r /usr/local/spark-2.1.0 slave:/usr/local
修改spark-env.sh文件中的SPARK_LOCAL_IP地址为自己的ip地址

cd /usr/local/spark-2.1.0/sbin
./start-all.sh
jps 查看
主显示master 从显示worker

转载于:https://my.oschina.net/u/2343310/blog/891204