spark程序打包集群运行方法及使用中的几个问题解决

最新推荐文章于 2024-05-10 08:41:16 发布

郝春雨

最新推荐文章于 2024-05-10 08:41:16 发布

阅读量3.2k

点赞数

分类专栏： Spark 文章标签： spark

本文链接：https://blog.csdn.net/haoxiaoxiaoyu/article/details/78611361

版权

Spark 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

最近在开始弄数据处理相关的事，文件很大时候使用pandas主机内存hold不住，实验室其实也在用spark，之前做过一些hadoop的东西，现在想补一下spark的知识，点一个技能点吧，以后需要时候随时可用。
首先idea配置及相关工作网上教程已经很多了，然后我现在主要是记录一下spark程序在idea下如何打包在集群运行，以及途中遇到的问题。做个记录吧，以后自己也能用到。
打包过程如下：
这里写图片描述

输出打包文件：点击菜单Build->Build Artifacts，弹出选择动作，选择Build或者Rebuild动作.

将输入文件发到hdfs上，然后用命令行
spark-submit –master local –class wordcount wordcount.jar /user/hadoop/hcy/wordcount.txt即可.

过程中出现的问题：
①新建工程中scala不显示scala只有sbt，因为idea版本问题
②pom文件中的依赖无法下载，解决方法：自行导入
③下载的依赖无法加载到external libraries，解决方法如下：
这里写图片描述
如果还是不行的话可以：
1）在pom文件里添加依赖。

2）添加依赖后在terminal控制台上输入mvn install点击回车，会自动下载jar包。

3）在libraries里面如果只有jdk里面的jar包。

4）点击刷新。
5）然后就有了。
这里写图片描述