一、提出任务
-
有多科成绩表,比如python.txt、spark.txt、django.txt,计算每个学生三科平均分
-
Python成绩表 -
python.txt1 张三丰 89 2 李孟达 95 3 唐雨涵 92 4 王晓云 93 5 张晓琳 88 6 佟湘玉 88 7 杨文达 66 8 陈燕文 98 -
Spark成绩表 -
spark.txt1 张三丰 67 2 李孟达 78 3 唐雨涵 89 4 王晓云 75 5 张晓琳 93 6 佟湘玉 70 7 杨文达 87 8 陈燕文 90 -
Django成绩表 -
django.txt1 张三丰 88 2 李孟达 93 3 唐雨涵 97 4 王晓云 87 5 张晓琳 79 6 佟湘玉 89 7 杨文达 93 8 陈燕文 95 -
期望输出结果如下所示:
1 张三丰 81.33 2 李孟达 88.67 3 唐雨涵 92.67 4 王晓云 85.00 5 张晓琳 86.67 6 佟湘玉 82.33 7 杨文达 82.00 8 陈燕文 94.33 -
在HDFS上新建/score目录

-
在master虚拟机上创建三个成绩文件

-
将三个成绩文件上传到HDFS的
/score目录

-
查看三个成绩文件内容

二、完成任务
(一)新建Maven项目
- 设置项目信息(项目名、保存位置、组编号、项目编号)

- 单击【Finish

该博客介绍了如何使用Spark来计算多个成绩文件(Python、Spark、Django)中每个学生的平均分。首先提出任务,包括创建HDFS上的/score目录,上传成绩文件。接着详细说明了完成任务的步骤:新建Maven项目,添加Spark相关依赖,创建日志属性文件,编写计算平均分的单例对象,并在本地运行程序查看结果。
最低0.47元/天 解锁文章
777

被折叠的 条评论
为什么被折叠?



