实验名称
RDD算子的操作实验
实验目的
掌握RDD算子的基本用法
实验资源
- student.txt
实验环境
- VMware Workstation
- Ubuntu 16.04
- Jupyter Notebook
- Pyspark
实验内容
student.txt中的数据一共分为6列,每一列含义如下表所示:
班级号 | 姓名 | 年龄 | 性别 | 课程 | 分数 |
---|---|---|---|---|---|
练习题目:
(1) 读入studnet.txt文档,生成RDD
(2) 获得年龄大于20的学生
(3) 获得性别为男的学生
(4) 获得班级号为10的学生
(5) 获得语文课的平均分
(6) 获得每个学生的平均成绩
(7) 获得每个科目的最高分
实验步骤
1、读入student.txt文档,生成RDD
rdd = sc.textFile("/home/test/student.txt")
rdd2 = rdd.map(lambda x : x.split(" "))
2、获得年龄大于20的学生
rd