利用pyspark练习sparkRDD算子的操作练习实验

该实验旨在通过Pyspark操作RDD,实现包括读取文件、过滤条件、计算平均分和最高分等任务,以掌握RDD算子的基本应用。实验涉及student.txt数据,包含6列信息,内容涵盖学生的基本信息和各科成绩。
摘要由CSDN通过智能技术生成

实验名称

RDD算子的操作实验

实验目的

掌握RDD算子的基本用法

实验资源

  • student.txt

实验环境

  • VMware Workstation
  • Ubuntu 16.04
  • Jupyter Notebook
  • Pyspark

实验内容

student.txt中的数据一共分为6列,每一列含义如下表所示:

班级号 姓名 年龄 性别 课程 分数

在这里插入图片描述

练习题目:
(1) 读入studnet.txt文档,生成RDD

(2) 获得年龄大于20的学生

(3) 获得性别为男的学生

(4) 获得班级号为10的学生

(5) 获得语文课的平均分

(6) 获得每个学生的平均成绩

(7) 获得每个科目的最高分

实验步骤

1、读入student.txt文档,生成RDD

rdd = sc.textFile("/home/test/student.txt")
rdd2 = rdd.map(lambda x : x.split(" "))

2、获得年龄大于20的学生

rd
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值