RDD编程初级实践Spark编程基础（Python版）

最新推荐文章于 2024-05-07 04:51:46 发布

Stephanie-

最新推荐文章于 2024-05-07 04:51:46 发布

阅读量3k

点赞数 1

文章标签： python spark hadoop

本文链接：https://blog.csdn.net/Tears_of_Twenty/article/details/117200688

版权

本文介绍了如何使用Python进行Spark RDD编程，包括计算学生总数、课程数量、平均分等，并展示了数据去重和求平均值的独立应用程序实现。实验涉及pyspark交互式编程和独立应用，涵盖了数据处理的基础操作。

摘要由CSDN通过智能技术生成

一、实验目的

（1）熟悉Spark的RDD基本操作及键值对操作；
（2）熟悉使用RDD编程解决实际具体问题的方法。

二、实验平台

操作系统：Ubuntu16.04
Spark版本：2.1.0
Python版本：3.5.2

三、实验内容和要求

1．pyspark交互式编程
下载chapter4-data1.txt，该数据集包含了某大学计算机系的成绩，数据格式如下所示：
Tom,DataBase,80
Tom,Algorithm,50
Tom,DataStructure,60
Jim,DataBase,90
Jim,Algorithm,60
Jim,DataStructure,80
……
请根据给定的实验数据，在pyspark中通过编程来计算以下内容：

（1）该系总共有多少学生；

>>> lines = sc.textFile("file:///usr/local/spark/sparksqldata/Data01.txt")
>>> res = lines.map(lambda x:x.split(",")).map(lambda x: x[0]) //获取每行数据的第1列 
>>> distinct_res = res.distinct()  //去重操作
>>> distinct_res.count()//取元素总个数
//265

在这里插入图片描述

（2）该系共开设了多少门课程；

>>> lines = sc.textFile("file:///usr/local/spark/sparksqldata/Data01.txt")
>>> res = lines.map(lambda x:x.split(",")).map(lambda x:x[1]) //获取每行数据的第2列
>>> distinct_res = res.distinct()//去重操作
>>> distinct_res.count()//取元素总个数
//8
答案为8门