如何将Spark程序打包上传服务器运行

Spark打包上传服务器运行+UCI数据集

大家好,我是状态很Down的SB

在这里插入图片描述

在这里插入图片描述

人间险恶啊,各位兄弟!

算了,言归正传,可能有的朋友也知道一些有名的数据集网站例如UCI、Kaggle,那么这篇博客就给大家分享一下如何从UCI中找数据集做批式处理,并提交到服务器计算的全过程。接下来分为几个部分:1、数据集网站介绍(以UCI为例),2、打包程序,3、服务器运行程序。

1、数据集网站介绍(以UCI为例)

大家训练模型肯定要找数据,要么自己爬,要么就去找比较权威的数据集网站,现在给大家介绍一下如何在UCI中找到想要的数据。

首先,打开UCI网站

在这里插入图片描述

这就是UCI首页,在右上角有搜索框可以关键词搜索,但是更多的是使用搜索框下方的View All Data Sets,点击该按钮可以跳转到所有数据集页面:

在这里插入图片描述

左方按照不同的任务类型、属性类型、数据类型、领域等分好类,右方表格上方分别是数据集名称、数据类型、推荐的任务、属性类型、样本数、特征数、数据集年份等。

注意,数据类型(Data Types)包括单变量( Univariate )、多变量( Multivariate )、 文本(Text )等,其他自己可以翻译,通过了解这些指标就可以找到合适的数据集。

接下来我要找一份用于聚类的数据集、要求数据纯数字并且数据量要10W+,下面这份数据就比较适合我,因为不包含复杂的时间戳、文本等需要转换:

在这里插入图片描述

下载完成后就可以进行下一步操作,编码了。

2、打包程序

经过漫长的分析与编码,我们需要将程序打包,打包有几种方式,下面我介绍MVN插件的方式。

在pom文件中添加如下依赖:

<build>
    <pluginManagement>
        <plugins>
            <!-- 编译scala的插件 -->
            <plugin>
                <groupId>net.alchim31.maven</groupId>
                <artifactId>scala-maven-plugin</artifactId>
                <version>3.2.2</version>
            </plugin>
            <!-- 编译java的插件 -->
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>3.5.1</version>
            </plugin>
            <!-- 指定jdk版本 -->
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>3.1</version>
                <configuration>
                    <!-- 源码的编译器版本 -->
                    <source>1.8</source>
                    <!-- class的编译器版本 -->
                    <target>1.8</target>
                </configuration>
            </plugin>
        </plugins>
    </pluginManagement>
    <plugins>
        <plugin>
            <groupId>net.alchim31.maven</groupId>
            <artifactId>scala-maven-plugin</artifactId>
            <executions>
                <execution>
                    <id>scala-compile-first</id>
                    <phase>process-resources</phase>
                    <goals>
                        <goal>add-source</goal>
                        <goal>compile</goal>
                    </goals>
                </execution>
                <execution>
                    <id>scala-test-compile</id>
                    <phase>process-test-resources</phase>
                    <goals>
                        <goal>testCompile</goal>
                    </goals>
                </execution>
            </executions>
        </plugin>

        <plugin>
            <groupId>org.apache.maven.plugins</groupId>
            <artifactId>maven-compiler-plugin</artifactId>
            <executions>
                <execution>
                    <phase>compile</phase>
                    <goals>
                        <goal>compile</goal>
                    </goals>
                </execution>
            </executions>
        </plugin>


        <!-- 打jar插件 -->
        <plugin>
            <groupId>org.apache.maven.plugins</groupId>
            <artifactId>maven-shade-plugin</artifactId>
            <version>2.4.3</version>
            <executions>
                <execution>
                    <phase>package</phase>
                    <goals>
                        <goal>shade</goal>
                    </goals>
                    <configuration>
                        <filters>
                            <filter>
                                <artifact>*:*</artifact>
                                <excludes>
                                    <exclude>META-INF/*.SF</exclude>
                                    <exclude>META-INF/*.DSA</exclude>
                                    <exclude>META-INF/*.RSA</exclude>
                                </excludes>
                            </filter>
                        </filters>
                    </configuration>
                </execution>
            </executions>
        </plugin>
    </plugins>
</build>

在IDEA右方点击maven,点击需要打包的项目,先双击clean,然后双击package:

在这里插入图片描述

打包完成,在工程出现黄色文件夹target:

在这里插入图片描述

original是最小打包,只将文件编成字节码并没有把相关依赖打进去,没有original的则是把相关依赖都打进去了,所以很大,一个小小的批式处理文件打出160M。

3、服务器运行程序

各位应该在服务器已经装好Spark了,我用的local模式,所以只需要装JDK、Scala、Spark三个东西就可以了,连接上服务器,进入Spark的bin目录(先上传jar包和数据集):

运行spark的格式如下:

spark-submit --name WordCountScala --class com.fsl.WordCountScala --master spark://master:7077 --executor-memory 1G --total-executor-cores 1 /root/mySparkTest-1.0.jar 

那么我的程序运行的命令如下:

[= =@dm bin]$ sh spark-submit --name EshopClothingClustering --class EshopClothingClustering --master local[*] --executor-memory 1G --total-executor-cores 1 /home/= =/original-UCIDataSet-1.0-SNAPSHOT.jar /home/= =/data/e-shop clothing 2008.csv

可以看到运行成功了:
在这里插入图片描述

总结

其实整个案例就那么简单,关键的地方在其他地方,例如如何在空白的服务器配置Spark、如何处理比较难处理的数据什么的,不知不觉又水了一篇。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值