RDD编程初级实践

duxial

于 2021-06-07 08:47:27 发布

阅读量77

点赞数

文章标签： spark

本文链接：https://blog.csdn.net/duxial/article/details/117648137

版权

这篇博客介绍了Spark RDD编程的初级实践，包括在pyspark中进行交互式编程，实现数据去重和求平均值的问题。实验涵盖了学生成绩分析，如计算学生总数、课程数量、特定学生平均分等，同时讲解了如何处理和合并多个数据文件，以及如何使用Spark计算文件内容的平均值。

摘要由CSDN通过智能技术生成

RDD编程初级实践

一、实验目的

（1）熟悉Spark的RDD基本操作及键值对操作；
（2）熟悉使用RDD编程解决实际具体问题的方法。

二、实验平台

操作系统：Ubuntu16.04
Spark版本：2.4.0
Python版本：3.4.3

三、实验内容和要求

1．pyspark交互式编程

本作业提供分析数据data.txt，该数据集包含了某大学计算机系的成绩，数据格式如下所示：
Tom,DataBase,80
Tom,Algorithm,50
Tom,DataStructure,60
Jim,DataBase,90
Jim,Algorithm,60
Jim,DataStructure,80
……
请根据给定的实验数据，在pyspark中通过编程来计算以下内容：
（1）该系总共有多少学生；
在这里插入图1片描述

（2）该系共开设了多少门课程；
在这里插入图片描述

（3）Tom同学的总成绩平均分是多少；
在这里插入图片描述

（4）求每名同学的选修的课程门数；
在这里插入图片描述

（5）该系DataBase课程共有多少人选修；
在这里插入图片描述

（6）各门课程的平均分是多少；
在这里插入图片描述

（7）使用累加器计算共有多少人选了DataBase这门课。
在这里插入图片描述

2.编写独立应用程序实现数据去重

对于两个输入文件A和B，编写Spark独立应用程序，对两个文件进行合并，并剔除其中重复的内容，得到一个新文件C。本文给出门课的成绩（A.txt、B.txt）下面是输入文件和输出文件的一个样例，供参考。
输入文件A的样例如下：
20200101 x
20200102 y
20200103 x
20200104 y
20200105 z
20200106 z
输入文件B的样例如下：
20200101 y
20200102 y
20200103 x
20200104 z
20200105 y
根据输入的文件A和B合并得到的输出文件C的样例如下：
20200101 x
20200101 y
20200102 y
20200103 x
20200104 y
20200104 z
20200105 y
20200105 z
20200106 z

在这里插入图片描述

3.编写独立应用程序实现求平均值问题

每个输入文件表示班级学生某个学科的成绩，每行内容由两个字段组成，第一个是学生名字，第二个是学生的成绩；编写Spark独立应用程序求出所有学生的平均成绩，并输出到一个新文件中。本文给出门课的成绩（Algorithm.txt、Database.txt、Python.txt），下面是输入文件和输出文件的一个样例，供参考。
Algorithm成绩：
小明 92
小红 87
小新 82
小丽 90
Database成绩：
小明 95
小红 81
小新 89
小丽 85
Python成绩：
小明 82
小红 83
小新 94
小丽 91
平均成绩如下：
(小红,83.67)
(小新,88.33)
(小明,89.67)
(小丽,88.67)