利用Spark RDD计算平均分

目录

一、提出任务

二、完成任务

(一)新建Maven项目

(二)添加相关依赖和构建插件

(三)创建日志属性文件

(四)创建计算平均分单例对象

(五)本地运行程序,查看结果

三、课后练习

任务1、计算平均分,按平均分降序排列

任务2、利用Spark RDD计算平均分


一、提出任务

  • 有多科成绩表,比如python.txt、spark.txt、django.txt,计算每个学生三科平均分

  • Python成绩表 - python.txt

1 张三丰 89
2 李孟达 95
3 唐雨涵 92
4 王晓云 93
5 张晓琳 88
6 佟湘玉 88
7 杨文达 66
8 陈燕文 98

  • Spark成绩表 - spark.txt

1 张三丰 67
2 李孟达 78
3 唐雨涵 89
4 王晓云 75
5 张晓琳 93
6 佟湘玉 70
7 杨文达 87
8 陈燕文 90

  • Django成绩表 - django.txt

1 张三丰 88
2 李孟达 93
3 唐雨涵 97
4 王晓云 87
5 张晓琳 79
6 佟湘玉 89
7 杨文达 93
8 陈燕文 95

  • 期望输出结果如下所示:

1 张三丰 81.33
2 李孟达 88.67
3 唐雨涵 92.67
4 王晓云 85.00
5 张晓琳 86.67
6 佟湘玉 82.33
7 杨文达 82.00
8 陈燕文 94.33

  • 预备工作:启动集群的HDFS与Spark

  • 在HDFS上新建/score目录

 

  • master虚拟机上创建三个成绩文件

  • 将三个成绩文件上传到HDFS的/score目录

  • 查看三个成绩文件内容

 二、完成任务

(一)新建Maven项目

  •  设置项目信息(项目名、保存位置、组编号、项目编号)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值