Spark——期末考试大作业：求top值、文件排序、二次排序程序个性化

最新推荐文章于 2024-04-24 19:02:34 发布

诗卿°

最新推荐文章于 2024-04-24 19:02:34 发布

阅读量4.5k

点赞数 3

分类专栏： Spark 文章标签：大数据 spark hadoop hdfs linux

本文链接：https://blog.csdn.net/maochaofei/article/details/117629083

版权

本文详细介绍了基于Ubuntu 14.04使用Spark完成求top值、文件排序和二次排序的三个大作业任务，包括创建项目、编写Scala代码、处理数据文件和解决常见问题的步骤。作业涉及Eclipse项目设置、数据样本创建、Scala代码编写和运行，以及遇到的如版本冲突、配置问题等解决方法。通过这些实践，作者深入理解了Spark相对于Hadoop的优势以及大数据计算平台的操作。

摘要由CSDN通过智能技术生成

文章目录

说明：本次大作业是基于ubuntukylin14.04(16)版本即hadoop集群（hadoop2.6.0版本）和hbase伪分布式（hbase1.1.2版本），并安装好Scala2.11.8、Spark2.1.0、sbt0.13.15和Scala IDE for eclipse4.7.0，并完成了sbt eclipse插件的全局安装，在实验报告1至3中均有详细步骤，在此不再描述。

任务1：求top值程序个性化（30分）

基于ubuntukylin14.04(16)版本，完成教材141页5.4.1节求top值程序个性化。相关代码和数据参考http://dblab.xmu.edu.cn/blog/1632-2/

1. 创建工作项目mcf14gzxm

（1）在eclipse工作目录（本人/home/mcf14/gongzuomulu）中创建工作项目mcf14gzxm。
在这里插入图片描述
（2）在gongzuomulu目录中输入mkdir -p mcf14gzxm/src/main/scala命令创建scala目录存放spark应用程序。

（3）在gongzuomulu目录中输入vim mcf14gzxm/build.sbt命令创建包含sbt打包配置信息的build.sbt文件，并在其中添加以下信息后保存退出。

name := "Simple Project"
version := "1.0"
scalaVersion := "2.11.8"
libraryDependencies += "org.apache.spark" %% "spark-core" % "2.1.0"

在这里插入图片描述

（4）在mcf14gzxm目录中输入mkdir project命令创建project目录并进入，然后输入vim build.properties命令创建包含程序配置信息的build.properties文件并打开，在其中添加sbt的版本信息后保存退出：

sbt.version=0.13.15

在这里插入图片描述

2. 创建eclipse应用程序

在程序主目录即/home/mcf14/gongzuomulu/mcf14gzxm中输入sbt eclipse命令创建eclipse应用程序，如下所示即为成功。
在这里插入图片描述

3. 导入mcf14gzxm项目

在终端输入eclipse命令打开eclipse，在eclipse界面右击左侧打开快捷菜单，然后点击import…，在Select an import wizard:中搜索Existing Projects into Workspace并选中，然后点击Next，点击Browse…找到刚才创建的工作项目mcf14gzxm（即/home/mcf14/gongzuomulu/mcf14gzxm）然后点击Finish就能导入mcf14gzxm项目了。
在这里插入图片描述

注：此时要注意eclipse中Scala的版本问题！如果mcf14gzxm项目有红叉，那就说明Scala版本出错，解决方法为：右击mcf14gzxm项目→Properties→Scala Compiler→选中Use Project Settings→在Scala Installation中选中与安装好的Scala一致的版本→Apply and Close，此时就不会出错了。
在这里插入图片描述

4. 创建数据样本文件mcf14TopN.txt

打开终端在用户主目录下创建数据样本文件TopN.txt（注意里边不能有空格）。
在这里插入图片描述

5. 创建程序代码文件mcf14TopN.scala

在mcf14gzxm项目中的src/main/scala目录上右击，选择New→Package→Name为mcf14TopN→Finish来创建mcf14TopN包，并右击此包选择New→Scala Object→Name为mcf14TopN.mcf14TopN→Finish来创建mcf14TopN.scala代码文件，并在其中输入代码（见文末），然后运行即可。
在这里插入图片描述