【Python3实战Spark大数据分析及调度】第4章 Spark Core RDD编程

第4章 Spark Core RDD编程

在这里插入图片描述

常用的Transformation算子

在这里插入图片描述
在这里插入图片描述
sortByKey
在这里插入图片描述
在这里插入图片描述
union
在这里插入图片描述
distinct
在这里插入图片描述
在这里插入图片描述
结果就是partition中少了一个1,其他不变
在这里插入图片描述

join,需要K-V类型的RDD
普通的join就是inner join,得到两者都有的
在这里插入图片描述
leftOuterJoin
以左表为基准
在这里插入图片描述
rightOuterJoin
以右表为基准
在这里插入图片描述
fullOuterJoin
全部显示出来
在这里插入图片描述

常用的Action算子

在这里插入图片描述
collect count take max min sum
在这里插入图片描述
reduce foreach
foreach类似map的操作,但是foreach是action操作
在这里插入图片描述

RDD编程案例实战

  1. 词频统计
    在这里插入图片描述
    代码示例
    在这里插入图片描述
    在这里插入图片描述
    集群提交

在这里插入图片描述
如果输入的是文件夹并且文件夹下面有4个相同的txt
在这里插入图片描述
在这里插入图片描述
再来测试一下将结果写入文件系统
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  1. Top N

在这里插入图片描述
在这里插入图片描述
集群提交
在这里插入图片描述
在这里插入图片描述
3. 平均数案例

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值