Spark打包上传服务器运行+UCI数据集
大家好,我是状态很Down的SB
人间险恶啊,各位兄弟!
算了,言归正传,可能有的朋友也知道一些有名的数据集网站例如UCI、Kaggle,那么这篇博客就给大家分享一下如何从UCI中找数据集做批式处理,并提交到服务器计算的全过程。接下来分为几个部分:1、数据集网站介绍(以UCI为例),2、打包程序,3、服务器运行程序。
1、数据集网站介绍(以UCI为例)
大家训练模型肯定要找数据,要么自己爬,要么就去找比较权威的数据集网站,现在给大家介绍一下如何在UCI中找到想要的数据。
首先,打开UCI网站:
这就是UCI首页,在右上角有搜索框可以关键词搜索,但是更多的是使用搜索框下方的View All Data Sets,点击该按钮可以跳转到所有数据集页面:
左方按照不同的任务类型、属性类型、数据类型、领域等分好类,右方表格上方分别是数据集名称、数据类型、推荐的任务、属性类型、样本数、特征数、数据集年份等。
注意,数据类型(Data Types)包括单变量( Univariate )、多变量( Multivariate )、 文本(Text )等,其他自己可以翻译,通过了解这些指标就可以找到合适的数据集。
接下来我要找一份用于聚类的数据集、要求数据纯数字并且数据量要10W+,下面这份数据就比较适合我,因为不包含复杂的时间戳、文本等需要转换:
下载完成后就可以进行下一步操作,编码了。
2、打包程序
经过漫长的分析与编码,我们需要将程序打包,打包有几种方式,下面我介绍MVN插件的方式。
在pom文件中添加如下依赖:
<build>
<pluginManagement>
<plugins>
<!-- 编译scala的插件 -->
<plugin>
<groupId>net.alchim31.maven</groupId>
<artifactId>scala-maven-plugin</artifactId>
<version>3.2.2</version>
</plugin>
<!-- 编译java的插件 -->
<plugin>
<groupId>org.apache.maven.plugins</groupId>
<artifactId>maven-compiler-plugin</artifactId>
<version>3.5.1</version>
</plugin>
<!-- 指定jdk版本 -->
<plugin>
<groupId>org.apache.maven.plugins</groupId>
<artifactId>maven-compiler-plugin</artifactId>
<version>3.1</version>
<configuration>
<!-- 源码的编译器版本 -->
<source>1.8</source>
<!-- class的编译器版本 -->
<target>1.8</target>
</configuration>
</plugin>
</plugins>
</pluginManagement>
<plugins>
<plugin>
<groupId>net.alchim31.maven</groupId>
<artifactId>scala-maven-plugin</artifactId>
<executions>
<execution>
<id>scala-compile-first</id>
<phase>process-resources</phase>
<goals>
<goal>add-source</goal>
<goal>compile</goal>
</goals>
</execution>
<execution>
<id>scala-test-compile</id>
<phase>process-test-resources</phase>
<goals>
<goal>testCompile</goal>
</goals>
</execution>
</executions>
</plugin>
<plugin>
<groupId>org.apache.maven.plugins</groupId>
<artifactId>maven-compiler-plugin</artifactId>
<executions>
<execution>
<phase>compile</phase>
<goals>
<goal>compile</goal>
</goals>
</execution>
</executions>
</plugin>
<!-- 打jar插件 -->
<plugin>
<groupId>org.apache.maven.plugins</groupId>
<artifactId>maven-shade-plugin</artifactId>
<version>2.4.3</version>
<executions>
<execution>
<phase>package</phase>
<goals>
<goal>shade</goal>
</goals>
<configuration>
<filters>
<filter>
<artifact>*:*</artifact>
<excludes>
<exclude>META-INF/*.SF</exclude>
<exclude>META-INF/*.DSA</exclude>
<exclude>META-INF/*.RSA</exclude>
</excludes>
</filter>
</filters>
</configuration>
</execution>
</executions>
</plugin>
</plugins>
</build>
在IDEA右方点击maven,点击需要打包的项目,先双击clean,然后双击package:
打包完成,在工程出现黄色文件夹target:
original是最小打包,只将文件编成字节码并没有把相关依赖打进去,没有original的则是把相关依赖都打进去了,所以很大,一个小小的批式处理文件打出160M。
3、服务器运行程序
各位应该在服务器已经装好Spark了,我用的local模式,所以只需要装JDK、Scala、Spark三个东西就可以了,连接上服务器,进入Spark的bin目录(先上传jar包和数据集):
运行spark的格式如下:
spark-submit --name WordCountScala --class com.fsl.WordCountScala --master spark://master:7077 --executor-memory 1G --total-executor-cores 1 /root/mySparkTest-1.0.jar
那么我的程序运行的命令如下:
[= =@dm bin]$ sh spark-submit --name EshopClothingClustering --class EshopClothingClustering --master local[*] --executor-memory 1G --total-executor-cores 1 /home/= =/original-UCIDataSet-1.0-SNAPSHOT.jar /home/= =/data/e-shop clothing 2008.csv
可以看到运行成功了:
总结
其实整个案例就那么简单,关键的地方在其他地方,例如如何在空白的服务器配置Spark、如何处理比较难处理的数据什么的,不知不觉又水了一篇。