目录
一、提出任务
-
有多科成绩表,比如python.txt、spark.txt、django.txt,计算每个学生三科平均分
-
Python成绩表 -
python.txt
1 张三丰 89
2 李孟达 95
3 唐雨涵 92
4 王晓云 93
5 张晓琳 88
6 佟湘玉 88
7 杨文达 66
8 陈燕文 98
- Spark成绩表 -
spark.txt
1 张三丰 67
2 李孟达 78
3 唐雨涵 89
4 王晓云 75
5 张晓琳 93
6 佟湘玉 70
7 杨文达 87
8 陈燕文 90
- Django成绩表 -
django.txt
1 张三丰 88
2 李孟达 93
3 唐雨涵 97
4 王晓云 87
5 张晓琳 79
6 佟湘玉 89
7 杨文达 93
8 陈燕文 95
- 期望输出结果如下所示:
1 张三丰 81.33
2 李孟达 88.67
3 唐雨涵 92.67
4 王晓云 85.00
5 张晓琳 86.67
6 佟湘玉 82.33
7 杨文达 82.00
8 陈燕文 94.33
- 预备工作:启动集群的HDFS与Spark
- 在HDFS上新建
/score
目录
- 在
master
虚拟机上创建三个成绩文件
- 将三个成绩文件上传到HDFS的
/score
目录
- 查看三个成绩文件内容
二、完成任务
(一)新建Maven项目
- 设置项目信息(项目名、保存位置、组编号、项目编号)