1,比如在idea上打包可以将我们写的代码打成jar包,这里我推荐一下我使用的打包工具,直接在pom文件加入打包插件:
<build>
<plugins>
<plugin>
<groupId>org.apache.maven.plugins</groupId>
<artifactId>maven-assembly-plugin</artifactId>
<version>3.0.0</version>
<configuration>
<descriptorRefs>
<descriptorRef>jar-with-dependencies</descriptorRef>
</descriptorRefs>
</configuration>
<executions>
<execution>
<id>make-assembly</id>
<phase>package</phase>
<goals>
<goal>single</goal>
</goals>
</execution>
</executions>
</plugin>
</plugins>
</build>
2,加入插件后,可以直接打包了,打包过程如下

如果是第一次打包的先点compile编译一下,才能执行后面的package,打包要一定的时间,稍等一下就好
3,还有就是打包不要设定运行环境,在集群运行默认就是集群的spark,idea为了测试就用的是local模式,注释这个就好

4,所有的工作完成后就可以在集群上运行了,注意一定要将jar包拉到集群上,执行命令如下
spark-submit --class reg.spark_demo \
--master spark://自己机器IP地址:7077 \
/root/software/jar包/spark_scala1-1.0-SNAPSHOT.jar
对于以上命令可以在集群任何位置执行,其中自己也可以设定内存以及参数传入,还有一个问题就是类一定要将对应的包名加上,我的包名是reg
5,容易运行出现错误的地方,尤其是第一次在集群上执行:
java.io.FileNotFoundException: File does not exist: hdfs://namenode:9000/spark

我第一次遇到这个问题,解决办法是在hdfs上建一个这样的spark文件夹,我的理解是我们运行任务肯定要有一个文件夹来保存每次的运行日志,当然也是我的自己理解,这样建完之后就可以执行了
6,如果你的执行有运行结果就代表集群运行成功了

上面的就是我的结果,如果和我问题类似以上方法不能解决问题,也可以给我留言
9206

被折叠的 条评论
为什么被折叠?



