一、前提准备
1、dfs,yarn 可用
2、我使用的是anaconda 加载了pyspark
安装pyspark 是需要使用pycharm; spark本身有pyspark库
3、每节点都是python3的环境
二、实现
1、spark配置路径 :/export/server/spark
2、配置依赖spark jar包
当Spark Application应用提交运行在YARN上时,默认情况下,每次提交应用都需要将依赖Spark相关jar包上传到YARN 集群中,为了节省提交时间和存储空间,将Spark相关jar包上传到HDFS目录中,设置属性告知Spark Application应用。
1、 修改spark-env.sh(只针对安装了pyspark库的节点)
vim conf/spark-env.sh
HADOOP_CONF_DIR=/export/server/hadoop/etc/hadoop YARN_CONF_DIR=/export/server/hadoop/etc/hadoop SPARK_HISTORY_OPTS="-Dspark.history.fs.logDirectory=hdfs://node1:8020/sparklog/ -Dspark.history.fs.cleaner.enabled=true"