RDD编程初级实践

本文介绍了使用PySpark进行交互式编程,包括数据去重和求平均值的问题。通过实例展示了如何处理学生数据,如统计学生数量、课程数量、平均成绩,以及特定课程的选课人数。还探讨了编写独立应用程序来实现数据去重和平均值计算的方法,并提供了相应的Python代码示例。
摘要由CSDN通过智能技术生成

1.pyspark交互式编程

1.pyspark交互式编程
(1)该系总共有多少学生。
在这里插入图 数据所在路径片描述
数据所在路径。
在这里插入图片描述
获取每行第一列的数据。
在这里插入图片描述
去掉重复数据,防止数据不准。
在这里插入图片描述
统计所需元素个数。
(2)该系共开设了多少门课程。
在这里插入图片描述
数据所在在路径。
在这里插入图片描述
获取每行数据第二列的数据。
在这里插入图片描述
去掉重复数据,防止数据不准。
在这里插入图片描述
统计所需元素个数。
(3)Tom同学的总成绩平均分是多少。
在这里插入图片描述
数据所在在路径。

在这里插入图片描述
筛选Tom同学的成绩。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值