2021-06-11

最新推荐文章于 2024-04-06 01:00:00 发布

m0_46675757

最新推荐文章于 2024-04-06 01:00:00 发布

阅读量393

点赞数 1

本文链接：https://blog.csdn.net/m0_46675757/article/details/117811649

版权

这篇博客介绍了使用Spark的RDD进行数据处理的实验，包括在pyspark环境中计算学生总数、课程数量、特定学生平均分等。还涉及编写独立Spark应用实现数据去重和计算平均成绩，并分享了解决输出文件报错的经验。实验加深了对Spark RDD操作的理解。

摘要由CSDN通过智能技术生成

期末大作业一 RDD编程初级实践
一、实验目的
（1）熟悉Spark的RDD基本操作及键值对操作；
（2）熟悉使用RDD编程解决实际具体问题的方法。
二、实验平台
操作系统：Ubuntu16.04
Spark版本：2.4.0
Python版本：3.4.3
三、实验内容和要求
1．pyspark交互式编程
安装Spark（Local模式）
sudo tar -zxf ~/下载/spark-2.4.0-bin-without-hadoop.tgz -C /usr/local/
cd /usr/local
sudo mv ./spark-2.4.0-bin-without-hadoop/ ./spark
sudo chown -R hadoop:hadoop ./spark # 此处的 hadoop 为你的用户名
Shell 命令
安装后，还需要修改Spark的配置文件spark-env.sh
cd /usr/local/spark
cp ./conf/spark-env.sh.template ./conf/spark-env.sh
Shell 命令
编辑spark-env.sh文件(vim ./conf/spark-env.sh)，在第一行添加以下配置信息:
export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)
配置完成后就可以直接使用，不需要像Hadoop运行启动命令。
通过运行Spark自带的示例，验证Spark是否安装成功。
cd /usr/local/spark
bin/run-example SparkPi
Shell 命令
执行时会输出非常多的运行信息，输出结果不容易找到，可以通过 grep 命令进行过滤（命令中的 2>&1 可以将所有的信息都输出到 stdout 中，否则由于输出日志的性质，还是会输出到屏幕中）:

本作业提供分析数据data.txt，该数据集包含了某大学计算机系的成绩，数据格式如下所示：
Tom,DataBase,80
Tom,Algorithm,50
Tom,DataStructure,60
Jim,DataBase,90
Jim,Algorithm,60
Jim,DataStructure,80
……
请根据给定的实验数据，在pyspark中通过编程来计算以下内容：
（1）该系总共有多少学生；
（2）该系共开设了多少门课程；
（3）Tom同学的总成绩平均分是多少；
（4）求每名同学的选修的课程门数；
（5）该系DataBase课程共有多少人选修；
（6）各门课程的平均分是多少；
（7）使用累加器计算共有多少人选了DataBase这门课。

文件内容如下
在这里插入图片描述

（1）该系总共有多少学生；
PYSPARK进入SPARK界面
使用sc.textFIle读取data.txt文件生成RDD
逗号分隔后，每一行的X[0],就是人名，再去重复后就是总人数。
在这里插入图片描述

（2）该系共开设了多少门课程；
X[1]是课程，去重
在这里插入图片描述

（3）Tom同学的总成绩平均分是多少；
用filter过滤TOM的成绩的行生成新的RDD。
把分数x[2]都转化整型后用reduce累加总分数进而求出平均分。
在这里插入图片描述

(4)求每名同学的选修的课程门数；

在这里插入图片描述

(5)该系DataBase课程共有多少人选修；

在这里插入图片描述

（6）各门课程平均分是多少
在这里插入图片描述

（7）使用累加器加速计算共有多少人选了DateBase这门课
在这里插入图片描述

2.编写独立应用程序实现数据去重
对于两个输入文件A和B，编写Spark独立应用程序，对两个文件进行合并，并剔除其中重复的内容，得到一个新文件C。本文给出门课的成绩（A.txt、B.txt）下面是输入文件和输出文件的一个样例，供参考。
输入文件A的样例如下：
20200101 x
20200102 y
20200103 x
20200104 y
20200105 z
20200106 z
输入文件B的样例如下：
20200101 y
20200102 y
20200103 x
20200104 z
20200105 y
根据输入的文件A和B合并得到的输出文件C的样例如下：
20200101 x
20200101 y
20200102 y
20200103 x
20200104 y
20200104 z
20200105 y
20200105 z
20200106 z

创建名为remdup.py的脚本文件
在这里插入图片描述

编辑
在这里插入图片描述

运行
在这里插入图片描述

结果已经输出到了result中
在这里插入图片描述

3.编写独立应用程序实现求平均值问题
每个输入文件表示班级学生某个学科的成绩，每行内容由两个字段组成，第一个是学生名字，第二个是学生的成绩；编写Spark独立应用程序求出所有学生的平均成绩，并输出到一个新文件中。本文给出门课的成绩（Algorithm.txt、Database.txt、Python.txt），下面是输入文件和输出文件的一个样例，供参考。
Algorithm成绩：
小明 92
小红 87
小新 82
小丽 90
Database成绩：
小明 95
小红 81
小新 89
小丽 85
Python成绩：
小明 82
小红 83
小新 94
小丽 91
平均成绩如下：
(小红,83.67)
(小新,88.33)
(小明,89.67)
(小丽,88.67)

把三个成绩文件放到/usr/local/spark/mycode/avgscore目录下。
在这里插入图片描述

编辑 .py文件
在这里插入图片描述

查看输出结果
在这里插入图片描述

经验总结
这此实验用到了spark交互式编程和编写独立应用程序两种方式来对数据处理，熟悉了map,reduce,reduceBykey等函数，熟悉了对RDD的操作。对于PYTHON也熟悉了不少。遇到过的问题就是输出结果文件的时候报错，手动删掉旧的结果文件夹解决了。原文档后有一堆的空格也要自己手动删除。
在学习上还有很多不足，再接再厉

m0_46675757

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
2021-06-11

期末大作业一 RDD编程初级实践一、实验目的（1）熟悉Spark的RDD基本操作及键值对操作；（2）熟悉使用RDD编程解决实际具体问题的方法。二、实验平台操作系统：Ubuntu16.04Spark版本：2.4.0Python版本：3.4.3三、实验内容和要求1．pyspark交互式编程安装Spark（Local模式）sudo tar -zxf ~/下载/spark-2.4.0-bin-without-hadoop.tgz -C /usr/local/cd /usr/localsu
复制链接

扫一扫