Spark实验2更新版（自用）

最新推荐文章于 2022-10-30 16:26:40 发布

JopenC

最新推荐文章于 2022-10-30 16:26:40 发布

阅读量427

点赞数

分类专栏： Spark 大数据 Linux

本文链接：https://blog.csdn.net/Jop_qq/article/details/102734804

版权

大数据同时被 3 个专栏收录

4 篇文章 2 订阅

订阅专栏

Linux

4 篇文章 0 订阅

订阅专栏

Spark

3 篇文章 1 订阅

订阅专栏

在master节点上执行如下命令：

/opt/hadoop/sbin/start-all.sh	//启动hadoop集群

/opt/spark/sbin/start-all.sh	//启动spark集群

1.在master的/opt目录下新建file1.txt数据文件
在这里插入图片描述

直接复制file1.txt:

1,1768,50,155
2,1218,600,211
3,2239,788,242
4,3101,28,599
5,4899,290,129
6,3110,54,1201
7,4436,259,877
8,2369,7890,27

2.将file1.txt数据文件上传至hdfs文件系统的/user/hadoop目录下
在这里插入图片描述
3.在master的用户根目录下创建TopN工程目录，并创建逻辑代码TopN.scala

4.进入工程根目录创建sbt编译脚本

直接复制simple.sbt：

name := "Simple Project"
version := "1.0"
scalaVersion := "2.11.12"
libraryDependencies += "org.apache.spark" %% "spark-core" % "2.4.4"

5.使用sbt执行编译打包命令
在这里插入图片描述

6.将编译后的jar包提交到spark中运行
在这里插入图片描述
7.程序执行完成后在终端输出结果

8.在/opt目录下创建FileSortData目录，用于存放实验数据文件

9.数据文件file1.txt

10数据文件file2.txt

11.数据文件file3.txt

12.在master的用户根目录下创建FileSort工程目录，并创建逻辑代码FileSort.scala
在这里插入图片描述
13.进入工程根目录创建sbt编译脚本

14.执行编译打包命令

15.将编译后的jar包提交到spark中运行

16.运行完毕后查看opt目录下上传的结果文件目录FileSortResult，并在终端打印结果数据

17.在/opt目录下创建file_1.txt数据文件
在这里插入图片描述
18.在用户根目录下创建工程目录，并编写第一个逻辑代码SecondarySortKey.scala

19.创建第二个逻辑文件SecondarySortApp.scala
在这里插入图片描述
20.进入工程根目录创建sbt编译脚本

21.执行编译打包命令

22.将编译后的jar包提交到spark中运行
在这里插入图片描述
23.程序运行完毕后在终端输出结果数据

执行如下命令：

/opt/spark/sbin/stop-all.sh	//关闭spark集群

/opt/hadoop/sbin/stop-all.sh	//关闭hadoop集群

至此，实验完毕。

JopenC

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark实验2更新版（自用）

在master节点上执行如下命令：/opt/hadoop/sbin/start-all.sh //启动hadoop集群/opt/spark/sbin/start-all.sh //启动spark集群1.在master的/opt目录下新建file1.txt数据文件直接复制file1.txt:1,1768,50,1552,1218,600,2113,2239,788,2424,310...
复制链接

扫一扫

专栏目录