如何将Spark程序打包上传服务器运行

最新推荐文章于 2022-12-28 10:37:46 发布

我一拳打弯你A柱

最新推荐文章于 2022-12-28 10:37:46 发布

阅读量1.2k

点赞数

分类专栏： Spark 文章标签： spark

本文链接：https://blog.csdn.net/alian_w/article/details/115149453

版权

Spark 专栏收录该内容

22 篇文章 2 订阅

订阅专栏

Spark打包上传服务器运行+UCI数据集

大家好，我是状态很Down的SB

在这里插入图片描述

人间险恶啊，各位兄弟！

算了，言归正传，可能有的朋友也知道一些有名的数据集网站例如UCI、Kaggle，那么这篇博客就给大家分享一下如何从UCI中找数据集做批式处理，并提交到服务器计算的全过程。接下来分为几个部分：1、数据集网站介绍（以UCI为例），2、打包程序，3、服务器运行程序。

1、数据集网站介绍（以UCI为例）

大家训练模型肯定要找数据，要么自己爬，要么就去找比较权威的数据集网站，现在给大家介绍一下如何在UCI中找到想要的数据。

首先，打开UCI网站：

在这里插入图片描述

这就是UCI首页，在右上角有搜索框可以关键词搜索，但是更多的是使用搜索框下方的View All Data Sets，点击该按钮可以跳转到所有数据集页面：

在这里插入图片描述

左方按照不同的任务类型、属性类型、数据类型、领域等分好类，右方表格上方分别是数据集名称、数据类型、推荐的任务、属性类型、样本数、特征数、数据集年份等。

注意，数据类型（Data Types）包括单变量（ Univariate ）、多变量（ Multivariate ）、文本（Text ）等，其他自己可以翻译，通过了解这些指标就可以找到合适的数据集。

接下来我要找一份用于聚类的数据集、要求数据纯数字并且数据量要10W+，下面这份数据就比较适合我，因为不包含复杂的时间戳、文本等需要转换：

在这里插入图片描述

下载完成后就可以进行下一步操作，编码了。

2、打包程序

经过漫长的分析与编码，我们需要将程序打包，打包有几种方式，下面我介绍MVN插件的方式。

在pom文件中添加如下依赖：

<build>
    <pluginManagement>
        <plugins>
            <!-- 编译scala的插件 -->
            <plugin>
                <groupId>net.alchim31.maven</groupId>
                <artifactId>scala-maven-plugin</artifactId>
                <version>3.2.2</version>
            </plugin>
            <!-- 编译java的插件 -->
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>3.5.1</version>
            </plugin>
            <!-- 指定jdk版本 -->
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>3.1</version>
                <configuration>
                    <!-- 源码的编译器版本 -->
                    <source>1.8</source>
                    <!-- class的编译器版本 -->
                    <target>1.8</target>
                </configuration>
            </plugin>
        </plugins>
    </pluginManagement>
    <plugins>
        <plugin>
            <groupId>net.alchim31.maven</groupId>
            <artifactId>scala-maven-plugin</artifactId>
            <executions>
                <execution>
                    <id>scala-compile-first</id>
                    <phase>process-resources</phase>
                    <goals>
                        <goal>add-source</goal>
                        <goal>compile</goal>
                    </goals>
                </execution>
                <execution>
                    <id>scala-test-compile</id>
                    <phase>process-test-resources</phase>
                    <goals>
                        <goal>testCompile</goal>
                    </goals>
                </execution>
            </executions>
        </plugin>

        <plugin>
            <groupId>org.apache.maven.plugins</groupId>
            <artifactId>maven-compiler-plugin</artifactId>
            <executions>
                <execution>
                    <phase>compile</phase>
                    <goals>
                        <goal>compile</goal>
                    </goals>
                </execution>
            </executions>
        </plugin>


        <!-- 打jar插件 -->
        <plugin>
            <groupId>org.apache.maven.plugins</groupId>
            <artifactId>maven-shade-plugin</artifactId>
            <version>2.4.3</version>
            <executions>
                <execution>
                    <phase>package</phase>
                    <goals>
                        <goal>shade</goal>
                    </goals>
                    <configuration>
                        <filters>
                            <filter>
                                <artifact>*:*</artifact>
                                <excludes>
                                    <exclude>META-INF/*.SF</exclude>
                                    <exclude>META-INF/*.DSA</exclude>
                                    <exclude>META-INF/*.RSA</exclude>
                                </excludes>
                            </filter>
                        </filters>
                    </configuration>
                </execution>
            </executions>
        </plugin>
    </plugins>
</build>

在IDEA右方点击maven，点击需要打包的项目，先双击clean，然后双击package：

在这里插入图片描述

打包完成，在工程出现黄色文件夹target：

在这里插入图片描述

original是最小打包，只将文件编成字节码并没有把相关依赖打进去，没有original的则是把相关依赖都打进去了，所以很大，一个小小的批式处理文件打出160M。

3、服务器运行程序

各位应该在服务器已经装好Spark了，我用的local模式，所以只需要装JDK、Scala、Spark三个东西就可以了，连接上服务器，进入Spark的bin目录（先上传jar包和数据集）：

运行spark的格式如下：

spark-submit --name WordCountScala --class com.fsl.WordCountScala --master spark://master:7077 --executor-memory 1G --total-executor-cores 1 /root/mySparkTest-1.0.jar

那么我的程序运行的命令如下：

[= =@dm bin]$ sh spark-submit --name EshopClothingClustering --class EshopClothingClustering --master local[*] --executor-memory 1G --total-executor-cores 1 /home/= =/original-UCIDataSet-1.0-SNAPSHOT.jar /home/= =/data/e-shop clothing 2008.csv

可以看到运行成功了：
在这里插入图片描述