RDD编程初级实践Spark编程基础(Python版)

本文介绍了如何使用Python进行Spark RDD编程,包括计算学生总数、课程数量、平均分等,并展示了数据去重和求平均值的独立应用程序实现。实验涉及pyspark交互式编程和独立应用,涵盖了数据处理的基础操作。
摘要由CSDN通过智能技术生成
一、实验目的

(1)熟悉Spark的RDD基本操作及键值对操作;
(2)熟悉使用RDD编程解决实际具体问题的方法。

二、实验平台

操作系统:Ubuntu16.04
Spark版本:2.1.0
Python版本:3.5.2

三、实验内容和要求

1.pyspark交互式编程
下载chapter4-data1.txt,该数据集包含了某大学计算机系的成绩,数据格式如下所示:
Tom,DataBase,80
Tom,Algorithm,50
Tom,DataStructure,60
Jim,DataBase,90
Jim,Algorithm,60
Jim,DataStructure,80
……
请根据给定的实验数据,在pyspark中通过编程来计算以下内容:

(1) 该系总共有多少学生;
>>> lines = sc.textFile("file:///usr/local/spark/sparksqldata/Data01.txt")
>>> res = lines.map(lambda x:x.split(",")).map(lambda x: x[0]) //获取每行数据的第1列 
>>> distinct_res = res.distinct()  //去重操作
>>> distinct_res.count()//取元素总个数
//265

在这里插入图片描述

(2) 该系共开设了多少门课程;
>>> lines = sc.textFile("file:///usr/local/spark/sparksqldata/Data01.txt")
>>> res = lines.map(lambda x:x.split(",")).map(lambda x:x[1]) //获取每行数据的第2列
>>> distinct_res = res.distinct()//去重操作
>>> distinct_res.count()//取元素总个数
//8
答案为8门

在这里插入图片描述

(3) Tom同学的总成绩平均分是多少;
>>> lines = sc
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值