spark集群+第三方jar包运行命令
对于我来说,使用IEDA进行spark编程还是一件特别不习惯的事,可能是因为我先用eclipse编写了java代码的原因吧,所以还是毅然放弃intelliJ IDEA转而使用scala IDE(也就是用于scala开发的eclipse),免安装的版本还是很方便的,推荐给大家。
使用Scala IDE中打jar包时,
出现的问题1:无法选择main方法,jar包上传集群后,也会报找不到主函数的异常
出现的问题2:jar包在集群上运行时,显示缺少第三方jar包,打jar包时直接包含第三方jar包也报错,最后使用了命令行的方式才解决了这个问题
以下是spark集群执行命令:
其中mtj-0.9.9.jar是第三方jar包,存放于本地的GA文件夹下,SampleSelection是main函数所在的scala文件,若是新建了包,注意加上包名
关于提交文件至spark集群的submit命令行的说明,本集群同时安装了hadoop和spark,为了使计算机能够清楚地执行命令,写出了执行命令的绝对路径,其中spark文件夹是搭建spark集群环境时的安装路径。