在master节点上执行如下命令:
/opt/hadoop/sbin/start-all.sh //启动hadoop集群
/opt/spark/sbin/start-all.sh //启动spark集群
1.在master的/opt目录下新建file1.txt数据文件
直接复制file1.txt:
1,1768,50,155
2,1218,600,211
3,2239,788,242
4,3101,28,599
5,4899,290,129
6,3110,54,1201
7,4436,259,877
8,2369,7890,27
2.将file1.txt数据文件上传至hdfs文件系统的/user/hadoop目录下
3.在master的用户根目录下创建TopN工程目录,并创建逻辑代码TopN.scala
4.进入工程根目录创建sbt编译脚本
直接复制simple.sbt:
name := "Simple Project"
version := "1.0"
scalaVersion := "2.11.12"
libraryDependencies += "org.apache.spark" %% "spark-core" % "2.4.4"
5.使用sbt执行编译打包命令
6.将编译后的jar包提交到spark中运行
7.程序执行完成后在终端输出结果
8.在/opt目录下创建FileSortData目录,用于存放实验数据文件
9.数据文件file1.txt
10数据文件file2.txt
11.数据文件file3.txt
12.在master的用户根目录下创建FileSort工程目录,并创建逻辑代码FileSort.scala
13.进入工程根目录创建sbt编译脚本
14.执行编译打包命令
15.将编译后的jar包提交到spark中运行
16.运行完毕后查看opt目录下上传的结果文件目录FileSortResult,并在终端打印结果数据
17.在/opt目录下创建file_1.txt数据文件
18.在用户根目录下创建工程目录,并编写第一个逻辑代码SecondarySortKey.scala
19.创建第二个逻辑文件SecondarySortApp.scala
20.进入工程根目录创建sbt编译脚本
21.执行编译打包命令
22.将编译后的jar包提交到spark中运行
23.程序运行完毕后在终端输出结果数据
执行如下命令:
/opt/spark/sbin/stop-all.sh //关闭spark集群
/opt/hadoop/sbin/stop-all.sh //关闭hadoop集群
至此,实验完毕。