Spark——期末考试大作业:求top值、文件排序、二次排序程序个性化

本文详细介绍了基于Ubuntu 14.04使用Spark完成求top值、文件排序和二次排序的三个大作业任务,包括创建项目、编写Scala代码、处理数据文件和解决常见问题的步骤。作业涉及Eclipse项目设置、数据样本创建、Scala代码编写和运行,以及遇到的如版本冲突、配置问题等解决方法。通过这些实践,作者深入理解了Spark相对于Hadoop的优势以及大数据计算平台的操作。
摘要由CSDN通过智能技术生成


   说明:本次大作业是基于ubuntukylin14.04(16)版本即hadoop集群(hadoop2.6.0版本)和hbase伪分布式(hbase1.1.2版本),并安装好Scala2.11.8、Spark2.1.0、sbt0.13.15和Scala IDE for eclipse4.7.0,并完成了sbt eclipse插件的全局安装,在实验报告1至3中均有详细步骤,在此不再描述。

任务1:求top值程序个性化(30分)

  基于ubuntukylin14.04(16)版本,完成教材141页5.4.1节求top值程序个性化。相关代码和数据参考http://dblab.xmu.edu.cn/blog/1632-2/

 1. 创建工作项目mcf14gzxm

  (1)在eclipse工作目录(本人/home/mcf14/gongzuomulu)中创建工作项目mcf14gzxm。
在这里插入图片描述
  (2)在gongzuomulu目录中输入mkdir -p mcf14gzxm/src/main/scala命令创建scala目录存放spark应用程序。
在这里插入图片描述
  (3)在gongzuomulu目录中输入vim mcf14gzxm/build.sbt命令创建包含sbt打包配置信息的build.sbt文件,并在其中添加以下信息后保存退出。

name := "Simple Project"
version := "1.0"
scalaVersion := "2.11.8"
libraryDependencies += "org.apache.spark" %% "spark-core" % "2.1.0"

在这里插入图片描述
在这里插入图片描述
  (4)在mcf14gzxm目录中输入mkdir project命令创建project目录并进入,然后输入vim build.properties命令创建包含程序配置信息的build.properties文件并打开,在其中添加sbt的版本信息后保存退出:

sbt.version=0.13.15

在这里插入图片描述
在这里插入图片描述

 2. 创建eclipse应用程序

  在程序主目录即/home/mcf14/gongzuomulu/mcf14gzxm中输入sbt eclipse命令创建eclipse应用程序,如下所示即为成功。
在这里插入图片描述

 3. 导入mcf14gzxm项目

  在终端输入eclipse命令打开eclipse,在eclipse界面右击左侧打开快捷菜单,然后点击import…,在Select an import wizard:中搜索Existing Projects into Workspace并选中,然后点击Next,点击Browse…找到刚才创建的工作项目mcf14gzxm(即/home/mcf14/gongzuomulu/mcf14gzxm)然后点击Finish就能导入mcf14gzxm项目了。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
  注:此时要注意eclipse中Scala的版本问题!如果mcf14gzxm项目有红叉,那就说明Scala版本出错,解决方法为:右击mcf14gzxm项目→Properties→Scala Compiler→选中Use Project Settings→在Scala Installation中选中与安装好的Scala一致的版本→Apply and Close,此时就不会出错了。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

 4. 创建数据样本文件mcf14TopN.txt

  打开终端在用户主目录下创建数据样本文件TopN.txt(注意里边不能有空格)。
在这里插入图片描述

 5. 创建程序代码文件mcf14TopN.scala

  在mcf14gzxm项目中的src/main/scala目录上右击,选择New→Package→Name为mcf14TopN→Finish来创建mcf14TopN包,并右击此包选择New→Scala Object→Name为mcf14TopN.mcf14TopN→Finish来创建mcf14TopN.scala代码文件,并在其中输入代码(见文末),然后运行即可。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

任务2:文件排序程序个性化(30分)

  基于ubuntukylin14.04(16)版本,完成教材143页5.4.2节文件排序程序个性化。相关代码和数据参考http://dblab.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

诗卿°

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值