spark集群

Spark 2.1.0 安装与配置
本文介绍如何安装与配置 Spark 2.1.0 版本,包括环境变量设置、配置文件修改等内容,并针对性能优化提供了一系列参数调整建议。

安装包:http://d3kbcqa49mib13.cloudfront.net/spark-2.1.0-bin-hadoop2.7.tgz
              http://www.scala-lang.org/download/2.12.2.html
        
环境基于Hadoop的,前面已搭建完成

设置spark环境变量
export SCALA_HOME=/usr/local/scala
export SPARK_HOME=/usr/local/spark-2.1.0/
export PATH=$PATH:$SPARK_HOME/bin:$SCALA_HOME/bin

修改配置文件
cd /usr/local/spark-2.1.0/conf
cp spark-defaults.conf.template spark-defaults.conf
vim spark-defaults.conf

#eventLog是否生效(建议开启,可以对已完成的任务记录其详细日志)
spark.eventLog.enabled          true
#eventLog是否启用压缩(cpu性能好的情况下建议开启,以减少内存等的占用) 
spark.eventLog.compress         true
#eventLog的文件存放位置,与spark-env.sh中的history server配置位置一致,这两个位置必须手动创建 hadoop fs -mkdir -p /tmp/spark/applicationHistory,否则spark启动失败
spark.eventLog.dir              hdfs://10.68.4.49:9000/tmp/spark/applicationHistory
#广播块大小 
spark.broadcast.blockSize       8m
#Executor的cpu核数
spark.executor.cores            1
#Executor的内存大小
spark.executor.memory           512m
#Executor心跳交换时间间隔
spark.executor.heartbeatInterval        20s

#文件抓取的timeout
spark.files.fetchTimeout        120s
#作业最大失败次数(达到此次数后,该作业不再继续执行,运行失败)
spark.task.maxFailures          6
#设置序列化机制(默认使用java的序列化,但是速度很慢,建议使用Kryo)
spark.serializer                org.apache.spark.serializer.KryoSerializer
#序列化缓冲大小
spark.kryoserializer.buffer.max         256m
#Akka调度帧大小
#spark.akka.frameSize            128   
spark.rpc.message.maxSize       128
#默认并行数
spark.default.parallelism       20
#最大网络延时
#spark.network.timeout           300s                 #最大网络延时
spark.speculation               true                      #Spark推测机制(建议开启)

vim spark-env.sh
SPARK_LOCAL_IP=10.68.4.49
 #本机ip或hostname
SPARK_LOCAL_DIRS=/data/spark/local
 #配置spark的local目录
SPARK_MASTER_IP=10.68.4.49
#master节点ip或hostname
SPARK_MASTER_WEBUI_PORT=8080
 #web页面端口

export SPARK_MASTER_OPTS="-Dspark.deploy.defaultCores=4"
 #spark-shell启动使用核数
SPARK_WORKER_CORES=4
 #Worker的cpu核数
SPARK_WORKER_MEMORY=4g
#worker内存大小
SPARK_WORKER_DIR=/data/spark/work
#worker目录
export SPARK_WORKER_OPTS="-Dspark.worker.cleanup.enabled=true -Dspark.worker.cleanup.appDataTtl=604800"
#worker自动清理及清理时间间隔
export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18080 -Dspark.history.retainedApplications=3 -             Dspark.history.fs.logDirectory=hdfs://10.68.4.49:9000/tmp/spark/applicationHistory"
 #history server页面端口、备份数、log日志在HDFS的位置
SPARK_LOG_DIR=/data/log/spark
 #配置Spark的log日志目录

export JAVA_HOME=/data/java/jdk                                       #配置java路径
export SCALA_HOME=/usr/local/scala                                    #配置scala路径

export SPARK_MASTER_HOST=10.68.4.49
export SPARK_WORKER_MEMORY=10240m

export HADOOP_HOME=/usr/local/hadoop/lib/native              #配置hadoop的lib路径
export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop/  #配置hadoop的配置路径

复制到其它从服务器
scp -r /usr/local/spark-2.1.0 slave:/usr/local
修改spark-env.sh文件中的SPARK_LOCAL_IP地址为自己的ip地址

cd /usr/local/spark-2.1.0/sbin
./start-all.sh
jps 查看
主显示master  从显示worker

转载于:https://my.oschina.net/u/2343310/blog/891204

【Copula光伏功率预测】基于单调广义学习系统(MBLS)和Copula理论的时空概率预测模型(Matlab代码实现)内容概要:本文介绍了一个基于单调广义学习系统(MBLS)和Copula理论的时空概率预测模型,用于光伏功率预测,并提供了相应的Matlab代码实现。该模型结合了MBLS在非线性映射和快速学习方面的优势,以及Copula函数在刻画多变量随机变量之间复杂相关性结构的能力,能够有效处理光伏发电的不确定性与时空相关性,从而提高预测精度和可靠性。此外,文中还列举了多个相关领域的研究案例和技术应用,展示了其在电力系统、机器学习、路径规划等多个方向的广泛应用前景。; 适合人群:具备一定编程基础和电力系统背景知识,熟悉Matlab编程语言,从事新能源发电预测、电力系统优化等相关领域研究的研发人员和高校师生。; 使用场景及目标:①应用于光伏电站的实际功率预测中,提升电网调度的准确性和稳定性;②作为学术研究工具,探索新型预测算法在处理非线性和不确定性问题上的潜力;③为其他可再生能源如风力发电的概率预测提供借鉴和参考。; 阅读建议:建议读者结合实际数据进行实验验证,深入理解MBLS和Copula理论的核心思想及其实现细节,同时关注模型参数的选择对预测性能的影响,以期达到最佳的应用效果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值