Spark编程基础(林子雨)第四章实验

根据给定的实验数据,在pyspark中通过编程来计算以下内容

(1)该系一共多少名学生。

(2)该系共开设多少门课程

(3)Tom同学的总成绩平均分是多少。

(4)每名同学的选修的课程门数。

(5)该系DataBase课程共有多少人选修。

(6)各门课程的平均分是多少。

(7)使用累加计算共有多少人选修DataBase这门课。

参考:

(1)

(2)

 

(3)先导进去文件然后进行统计Tom的数据,并且输出

统计

 (4)

(5)

 x[1]表示从第二列取出数据。

(6)

 

(7)

 

 二、编写独立数据去重。(参考)

对于两个文件A和B,编写Spark独立应用程序,对两个文件进行合并,并剔除其中重复的内容,得到一个新文件C。

如图,先在相关目录下建立所需要的txt文件

 

在同目录下建立一个C.py文件输入上面的代码。

 完成后查看之前建立的两个文件

 运行C.py文件

在之前建立的A和B的两个文件夹下生成一个文件result1,用cd进入查看,可看到生成一个文件part-00000,用cat查看即可。

 

三、编写独立的应用程序来实现求平均值的问题

 在目录下建立三个题目中需要的txt文件,如下图所示

 输入题目中所给的数据,以第一个Algorithm.txt为例

建立完成后,在同目录下建立一个Python文件,代码如下所示(仅供参考)

最后运行,会在目录下生成一个文件夹averge(本人虚拟机是这个),如下图所示。

 题目中所需要的chapter4-data01文件,可以私我发;

 

 

 

  • 14
    点赞
  • 128
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
Spark Python是Spark提供的用于Python编程的API。通过将应用写成Python脚本,并使用bin/spark-submit脚本提交运行,可以使用Spark Python API来进行大数据分布式计算。 Spark Python API提供了一系列函数调用,可以帮助开发人员在Python中进行大数据处理和分析。你可以通过学习一些关于Spark Python API函数调用的资料来更好地理解和使用它们。 在Spark中,驱动程序通过一个SparkContext对象来访问Spark,这个对象代表对计算集群的一个连接。 通过使用Spark Python API,你可以方便地在Python中进行大数据处理和分析,提高工作效率。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [Spark 学习-1 (python)](https://blog.csdn.net/m0_55641196/article/details/127449097)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *2* [Spark python API 函数调用学习](https://download.csdn.net/download/qq_35996035/10597702)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值