spark快速大数据分析之学习记录(六)

题外话:这是一个“连载”,主要用于记录并监督我每周的Spark学习进程

RDD常用函数【Python】

一、转化操作函数

1.filter:对RDD中每个元素进行操作,过滤出符合条件的元素,返回一个新RDD

2.map:对RDD中每个元素进行操作,返回一个新RDD,元素个数相同

 

3.flatMap:对RDD中每个元素进行操作,然后将得到的数据集“拍扁”,返回一个新的RDD,元素个数>=原来的RDD,对比如下图

4.union:求RDD之间的并集;distinct:RDD元素去重;intersection:RDD之间的交集;subtract:RDD之间的差集;cartesian:笛卡尔积

二、行动操作函数

1.collect:返回RDD中的所有元素

2.count:返回RDD中元素个数;mean:求RDD的平均值;variance:求RDD的方差

3.countByValue:统计RDD中每个元素出现的个数,返回键值对

4.take:返回RDD前几个元素; top:返回最大的前几个元素

5.takeOrdered:按照元素的排序默认按升序返回前几个元素

或指定排序方式:

6.takeSample:RDD随机抽样,是否替代、抽几个、种子

7.reduce:对RDD中的元素进行并行整合(如累加/累乘)

8.fold:同reduce,需设定初始值(累加时初始值为0 ,累乘时初始值为1)

9.aggregate:返回不同类型的函数

(详情参考https://blog.csdn.net/u011011025/article/details/76206335

10.foreach:对RDD中每个元素应用函数

 

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值