spark执行优化--将依赖的jar包上传至hdfs上（spark3.1.1）

最新推荐文章于 2022-12-28 10:37:46 发布

weixin_42934205

最新推荐文章于 2022-12-28 10:37:46 发布

阅读量3.6k

点赞数 1

分类专栏：大数据文章标签： spark hdfs

本文链接：https://blog.csdn.net/weixin_42934205/article/details/120967928

版权

大数据专栏收录该内容

8 篇文章 0 订阅

订阅专栏

spark执行过程优化------将spark运行的jar包上传到HDFS上，避免在提交任务时因为spark程序包过大导致的占用运行时间和cpu资源

起因是在提交spark任务的时候，因为服务器处于离线状态，好多的依赖包无法通过网络进行下载，所以打成的spark程序包比较大，大概在200~300MB之间，每次通过spark-on-yarn提交任务时，总是有一段时间将本地的spark程序上传到hdfs，占用了太多的网络资源以及cpu。

所以，通过配置spark.yarn.archive和spark.yarn.jars来避免jar包的上传，从而减少启动时间。

1.配置spark.yarn.jars

先将spark根目录下的jars文件夹下的所有的jar包上传到hdfs上

hdfs dfs -mkdir -p /spark-yarn/jars/
hdfs dfs -put /server/spark/jars/* /spark-yarn/jars/

修改spark-defaults.conf (注意：要修改所有节点的），增加此配置：spark.yarn.jars hdfs://node22:9000/spark-yarn/jars/*.jar

2.配置spark.yarn.archive

将spark根目录下jars里的所有jar包上传到HDFS
打包要注意所有的jar都在zip包的根目录中（如果提示没有zip命令，则需要先安装：yum install zip)

zip -q -r spark_jars.zip *
hdfs dfs -mkdir /spark-yarn/zip
hdfs dfs -put spark_jars.zip /spark-yarn/zip/

修改spark-defaults.conf (注意：要修改所有节点的），增加此配置：spark.yarn.archive hdfs://node22:9000/spark-yarn/zip/spark_jars.zip

然后在提交任务时，执行如下命令：

spark-submit --class access.Data2Hbase \
--master yarn \
--deploy-mode cluster \
--name xxx  \
 hdfs://node22:9000/intelligover/intelligover-1.0-SNAPSHOT-jar-with-dependencies.jar \
 xxxx

(为了修改方便，不建议将自己的程序与spark自身的jar包放置在一起，避免在更新的时候误删)

weixin_42934205

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录