spark期末大作业RDD编程初级实践

最新推荐文章于 2022-05-16 11:14:19 发布

Only-CYY

最新推荐文章于 2022-05-16 11:14:19 发布

阅读量7.3k

点赞数 14

分类专栏： Spark 文章标签： spark hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39514248/article/details/117884467

版权

本文通过一个期末大作业，详细介绍了如何使用pyspark进行数据处理，包括统计学生数量、课程数量、平均分计算等。同时，讲解了如何编写独立应用程序实现数据去重和求平均值问题，涉及RDD的去重、排序和写入操作。最后，作者分享了Spark与Hadoop的集成使用体验，强调了Spark的高效性和灵活性。

摘要由CSDN通过智能技术生成

1、需求描述

本次实验需要：系统：linux unbuntu14.04，处理器：至少需要两个处器，一个内核，内存：至少4G，硬盘空间：大小需要20GB。Hadoop：2.7.1以上版本，JDK：1.8以上版本，Spark：2.4.0以上版本，Python:3.6以上版本。

1、根据data.txt的数据分析某大学计算机系的成绩

（1）该系总共有多少学生；

（2）该系共开设了多少门课程；

（3）Tom同学的总成绩平均分是多少；

（4）求每名同学的选修的课程门数；

（5）该系DataBase课程共有多少人选修；

（6）各门课程的平均分是多少；

（7）使用累加器计算共有多少人选了DataBase这门课。

2、编写独立应用程序实现数据去重

对于两个输入文件A和B，编写Spark独立应用程序，对两个文件进行合并，并剔除其中重复的内容，得到一个新文件C

3、编写独立应用程序实现求平均值问题

每个输入文件表示班级学生某个学科的成绩，每行内容由两个字段组成，第一个是学生名字，第二个是学生的成绩；编写Spark独立应用程序求出所有学生的平均成绩，并输出到一个新文件中

2、环境介绍

环境准备：

Hadoop下载与安装

https://pan.baidu.com/share/init?surl=mUR3M2U_lbdBzyV_p85eSA

（提取码：99bg）进入该百度云盘链接后，找到Hadoop安装文件hadoop-2.7.1.tar.gz。

2、下载完后还需要配置必备工作才能安装hadoop。

(1)首先创建Hadoop用户,sudo useradd -m hadoop -s /bin/bash

(2)设置Hadoop用户密码,sudo passwd Hadoop

(3)为Hadoop用户增加管理员权限,sudo adduser hadoop sudo

(4)使用Hadoop用户登录后需要更新apt，sudo apt-get update

(5)安装vim, sudo apt-get install vim

(6)安装JAVA环境

最低0.47元/天解锁文章

关注

14
点赞
踩
154

收藏

觉得还不错? 一键收藏
6
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 6

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。