RDD编程初级实践

本文档详细介绍了使用pyspark进行RDD编程的实践过程,包括计算学生总数、课程门数、平均成绩等。同时,通过编写独立程序实现了数据去重和求平均值的问题,涉及数据加载、数据处理、结果输出等多个环节,加深了对Spark RDD的理解。
摘要由CSDN通过智能技术生成

目录

1.需求描述

2.环境介绍

3.数据来源描述

4数据上传及上传结果查看

1.实验数据装备:

2.数据查看:

5.数据处理过程描述

(一)pyspark交互式编程

(二) 编写独立应用程序实现数据去重

(三)编写独立应用程序实现求平均值问题

6、经验总结


1.需求描述

本次实验需要熟悉Spark的RDD基本操作及键值对操作、熟悉使用RDD编程解决实际具体问题的方法。根据如下①②③需求完成实验。

①分析某大学计算机系的成绩的数据,在pyspark中通过编程来计算该系总共有多少学生、该系共开设了多少门课程、某同学的总成绩平均数、每名同学的选修的课程门数、该系某课程共有多少人选修、各门课程的平均分是多少以及使用累加器计算共有多少人选了DataBase这门课。

②对于两个输入文件A和B,编写Spark独立应用程序,对两个文件进行合并,并剔除其中重复的内容,得到一个新文件C。本文给出门课的成绩(A.txt、B.txt)下面是输入文件和输出文件的一个样例,供参考。

输入文件A的样例如下:

20200101    x

20200102    y

20200103    x

20200104    y

20200105    z

20200106    z

输入文件B的样例如下:

20200101    y

20200102    y

20200103    x

20200104    z

20200105    y

根据输入的文件A和B合并得到的输出文件C的样例如下:

20200101    x

20200101    y

20200102    y

20200103    x

20200104    y

20200104    z

20200105    y

20200105    z

20200106    z

③每个输入文件表示班级学生某个学科的成绩,每行内容由两个字段组成,第一个是学生名字,第二个是学生的成绩;编写Spark独立应用程序求出所有学生的平均成绩,并输出到一个新文件中。本文给出门课的成绩(Algorithm.txt、Database.txt、Python.txt),下面是输入文件和输出文件的一个样例,供参考。

Algorithm成绩:

小明 92

小红 87

小新 82

小丽 90

Database成绩:

小明 95

小红 81

小新 89

小丽 85

Python成绩:

小明 82

小红 83

小新 94

小丽 91

平均成绩如下:

    (小红,83.67)

    (小新,88.33)

    (小明,89.67)

    (小丽,88.67)

 

2.环境介绍

  本次实验在win10环境下运行,打开Oracle VM VirtualBox虚拟机,运行ubuntu 16.04,其中Ubuntu是一个以桌面应用为主的Linux操作系统,系统分配的内存大小为6082MB、显存大小为12MB。Spack版本号为3.1.1,python版本号为3.8.7(注:如果使用低版本的话,可能会使某些包不兼容从而导致错误)

3.数据来源描述

本次实验的数据全部来自指导老师提供的六个文件,分别为A.txt、B.txt Algorithm.txt、data.txt Database.txt、python.txt。其中①A.txt代表各个学生的学号和课程号。②B.txt代表各个学生的学号和课程号。③data.txt该数据集包含了某大学计算机系的成绩。④Algorithm.txt的文本代表每个输入文件表示班级学生某个学科的成绩,每行内容由两个字段组成,第一个是学生名字,第二个是学生的成绩。⑤Database.txt的文本代表每个输入文件表示班级学生某个学科的成绩,每行内容由两个字段组成,第一个是学生名字,第二个是学生的成绩⑥Python.txt的文本代表每个输入文件表示班级学生某个学科的成绩,每行内容由两个字段组成,第一个是学生名字,第二个是学生的成绩。

4数据上传及上传结果查看

1.实验数据装备:

将数据文件移动到/usr/local/spark/chenminshui/目录下

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值