spark任务打成jar包到集群运行需要注意的点和报错解决

1,比如在idea上打包可以将我们写的代码打成jar包,这里我推荐一下我使用的打包工具,直接在pom文件加入打包插件:

<build>
    <plugins>
        <plugin>
            <groupId>org.apache.maven.plugins</groupId>
            <artifactId>maven-assembly-plugin</artifactId>
            <version>3.0.0</version>
            <configuration>
                <descriptorRefs>
                    <descriptorRef>jar-with-dependencies</descriptorRef>
                </descriptorRefs>
            </configuration>
            <executions>
                <execution>
                    <id>make-assembly</id>
                    <phase>package</phase>
                    <goals>
                        <goal>single</goal>
                    </goals>
                </execution>
            </executions>
        </plugin>
    </plugins>
</build>

2,加入插件后,可以直接打包了,打包过程如下

 如果是第一次打包的先点compile编译一下,才能执行后面的package,打包要一定的时间,稍等一下就好

3,还有就是打包不要设定运行环境,在集群运行默认就是集群的spark,idea为了测试就用的是local模式,注释这个就好

 4,所有的工作完成后就可以在集群上运行了,注意一定要将jar包拉到集群上,执行命令如下

spark-submit --class reg.spark_demo \
--master spark://自己机器IP地址:7077 \
/root/software/jar包/spark_scala1-1.0-SNAPSHOT.jar

对于以上命令可以在集群任何位置执行,其中自己也可以设定内存以及参数传入,还有一个问题就是类一定要将对应的包名加上,我的包名是reg

5,容易运行出现错误的地方,尤其是第一次在集群上执行:

java.io.FileNotFoundException: File does not exist: hdfs://namenode:9000/spark

我第一次遇到这个问题,解决办法是在hdfs上建一个这样的spark文件夹,我的理解是我们运行任务肯定要有一个文件夹来保存每次的运行日志,当然也是我的自己理解,这样建完之后就可以执行了

6,如果你的执行有运行结果就代表集群运行成功了

 上面的就是我的结果,如果和我问题类似以上方法不能解决问题,也可以给我留言

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值