spark client + yarn计算

最新推荐文章于 2024-10-17 15:34:15 发布

anxia5150

最新推荐文章于 2024-10-17 15:34:15 发布

阅读量77

点赞数

文章标签：大数据开发工具

原文链接：http://www.cnblogs.com/kisf/p/7544695.html

版权

前提：完成hadoop + kerberos安全环境搭建。

安装配置spark client：

1. wget https://d3kbcqa49mib13.cloudfront.net/spark-2.2.0-bin-hadoop2.7.tgz

2. 配置

指定hadoop路径

vim conf/spark-env.sh

HADOOP_CONF_DIR=/xxx/soft/hadoop-2.7.3/etc/hadoop

配置环境变量：

vim /etc/profile

export SPARK_HOME=/xxx/soft/spark-2.2.0-bin-hadoop2.7

分配kerberos

kadmin.local

addprinc -randkey sparkclient01@JENKIN.COM
xst -k /var/kerberos/krb5kdc/keytab/sparkclient01.keytab sparkclient01@JENKIN.COM

将keytab分发给spark client

scp /var/kerberos/krb5kdc/keytab/sparkclient01.keytab hadoop1:/xxx/soft/spark-2.2.0-bin-hadoop2.7/

在hdfs上建立文件夹：（ eventLog.dir ）

hadoop fs -mkdir -p /jenkintest/tmp/spark01

hadoop fs -ls /jenkintest/tmp/

启动client:

cd ./bin

./spark-submit  --class org.apache.spark.examples.SparkPi \
--conf spark.eventLog.dir=hdfs://jenkintest/tmp/spark01 \
--master yarn \
--deploy-mode client \
--driver-memory 4g \
--principal sparkclient01 \
--keytab /xxx/soft/spark-2.2.0-bin-hadoop2.7/sparkclient01.keytab \
--executor-memory 1g \
--executor-cores 1 \
$SPARK_HOME/examples/jars/spark-examples*.jar \
10

命令解释：

--master yarn　　//代表spark任务在yarn上

--master cluser　　//代表spark 在yarn集群上