spark程序打包集群运行方法及使用中的几个问题解决

  最近在开始弄数据处理相关的事,文件很大时候使用pandas主机内存hold不住,实验室其实也在用spark,之前做过一些hadoop的东西,现在想补一下spark的知识,点一个技能点吧,以后需要时候随时可用。
  首先idea配置及相关工作网上教程已经很多了,然后我现在主要是记录一下spark程序在idea下如何打包在集群运行,以及途中遇到的问题。做个记录吧,以后自己也能用到。
  打包过程如下:
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
  输出打包文件:点击菜单Build->Build Artifacts,弹出选择动作,选择Build或者Rebuild动作.
这里写图片描述
这里写图片描述
  将输入文件发到hdfs上,然后用命令行
spark-submit –master local –class wordcount wordcount.jar /user/hadoop/hcy/wordcount.txt即可.

过程中出现的问题:
①新建工程中scala不显示scala只有sbt,因为idea版本问题
②pom文件中的依赖无法下载,解决方法:自行导入
③下载的依赖无法加载到external libraries,解决方法如下:
这里写图片描述
如果还是不行的话可以:
1)在pom文件里添加依赖。
这里写图片描述
2)添加依赖后在terminal控制台上输入mvn install点击回车,会自动下载jar包。
这里写图片描述
3)在libraries里面如果只有jdk里面的jar包。
这里写图片描述
4)点击刷新。
5)然后就有了。
这里写图片描述

文章部分内容转自:
Trigl的博客—— Learning Spark——使用Intellij Idea开发基于Maven的Spark程序
Idea 创建maven web项目后在pom.xml里面添加依赖,但项目里没有jar包

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值