大数据spark安装部署

最新推荐文章于 2024-04-09 09:57:14 发布

夜楼听雨

最新推荐文章于 2024-04-09 09:57:14 发布

阅读量181

点赞数

分类专栏： spark 文章标签：数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Mr_Duanlife/article/details/87125281

版权

spark 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1、下载spark安装包

http://spark.apache.org/downloads.html

高版本不存在cdh的编译版本，可以从官网下载源码版本，指定高版本hadoop进行编译

编译步骤：

1，安装java(JDK 1.7及以上)

export JAVA_HOME=/xxx
export JRE_HOME=/xxx
export CLASSPATH=.: $JAVA_HOME/lib/dt.jar:$ JAVA_HOME/lib/tools.jar: $JRE_HOME/lib:$ CLASSPATH
export PATH= $JAVA_HOME/bin:$ PATH
2，安装Maven，版本为3.3.9或者以上

下载地址：https://mirrors.tuna.tsinghua.edu.cn/apache//maven/maven-3/3.3.9/binaries

配置MAVEN_HOME

export MAVEN_HOME=/xxx
export PATH= $MAVEN_HOME/bin:$ PATH
3，下载spark源码

s1

4，增加cdh的repository

解压spark的源码包，编辑pom.xml文件，在repositories节点加入如下配置：

cloudera https://repository.cloudera.com/artifactory/cloudera-repos/ 5，编译

设置内存：

export MAVEN_OPTS="-Xmx2g -XX:ReservedCodeCacheSize=512m"

开始编译：

./dev/make-distribution.sh --name 2.6.0-cdh5.7.0 --tgz -Pyarn -Phadoop-2.6 -Phive -Phive-thriftserver -Dhadoop.version=2.6.0-cdh5.7.0 -DskipTests clean package

源码编译后，bin目录下的文件可能不存在可执行权限，需要通过chmod指令添加可执行权限

chmod +x xxx

2、规划spark安装目录

3、解压安装包

4、重命名安装目录

5、修改配置文件

spark-env.sh(需要将spark-env.sh.template重命名)

配置hadoop的CONF目录，spark会将hadoop中的配置文件进行加载

HADOOP_CONF_DIR=/root/bigdata/hadoop-2.6.0-cdh5.7.0/etc/hadoop

配置java环境变量

export JAVA_HOME=java_home_path

配置PYTHON环境

PYTHON_HOME=/usr/local/python3/bin

export PYSPARK_PYTHON=/xx/pythonx_home/bin/python3

配置spark的日志目录(注：需要先在hadoop上创建一个目录(directory,spark不会主动创建这个目录))

SPARK_HISTORY_OPTS="-Dspark.history.fs.logDirectory=hdfs://hadoop:8020/spark_directory"

配置master的地址(可选)

export SPARK_MASTER_HOST=hadoop

配置master的端口(可选)

export SPARK_MASTER_PORT=7077

配置spark-defaults文件

spark.eventLog.enabled true spark.eventLog.dir hdfs://hadoop:8020/spark_directory

6、配置spark环境变量

export SPARK_HOME=/root/bigdata/spark-2.3.0-bin-2.6.0-cdh5.7.0
export PATH= $SPARK_HOME/bin:$ PATH
3、spark启动和停止
启动pyspark

在节点上执行

./pyspark

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据spark安装部署

1、下载spark安装包http://spark.apache.org/downloads.html高版本不存在cdh的编译版本，可以从官网下载源码版本，指定高版本hadoop进行编译编译步骤：1，安装java(JDK 1.7及以上)export JAVA_HOME=/xxxexport JRE_HOME=/xxxexport CLASSPATH=.:JAVAHOME/lib/dt....
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。