Spark RDD案例:计算平均分

该博客介绍了如何使用Spark来计算多个成绩文件(Python、Spark、Django)中每个学生的平均分。首先提出任务,包括创建HDFS上的/score目录,上传成绩文件。接着详细说明了完成任务的步骤:新建Maven项目,添加Spark相关依赖,创建日志属性文件,编写计算平均分的单例对象,并在本地运行程序查看结果。

一、提出任务

  1. 有多科成绩表,比如python.txt、spark.txt、django.txt,计算每个学生三科平均分

  2. Python成绩表 - python.txt

    1 张三丰 89
    2 李孟达 95
    3 唐雨涵 92
    4 王晓云 93
    5 张晓琳 88
    6 佟湘玉 88
    7 杨文达 66
    8 陈燕文 98
    
  3. Spark成绩表 - spark.txt

    1 张三丰 67
    2 李孟达 78
    3 唐雨涵 89
    4 王晓云 75
    5 张晓琳 93
    6 佟湘玉 70
    7 杨文达 87
    8 陈燕文 90
    
  4. Django成绩表 - django.txt

    1 张三丰 88
    2 李孟达 93
    3 唐雨涵 97
    4 王晓云 87
    5 张晓琳 79
    6 佟湘玉 89
    7 杨文达 93
    8 陈燕文 95
    
  5. 期望输出结果如下所示:

    1 张三丰 81.33
    2 李孟达 88.67
    3 唐雨涵 92.67
    4 王晓云 85.00
    5 张晓琳 86.67
    6 佟湘玉 82.33
    7 杨文达 82.00
    8 陈燕文 94.33
    
  6. 在HDFS上新建/score目录在这里插入图片描述

  7. 在master虚拟机上创建三个成绩文件
    在这里插入图片描述

  8. 将三个成绩文件上传到HDFS的/score目录
    在这里插入图片描述

  9. 查看三个成绩文件内容
    在这里插入图片描述

二、完成任务

(一)新建Maven项目

  • 设置项目信息(项目名、保存位置、组编号、项目编号)在这里插入图片描述
  • 单击【Finish
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值