Spark RDD算子

一、Transformations与Actions主要算子
(1)Transformations

算子描述
map处理每一条数据
mapPartitions对每个分区进行处理
mapPartitionsWithIndex每个元素跟所在分区形成一个元组
mapValues是针对RDD[K,V]的V做处理
flatmapflatmap = map + flatten
glom每一个分区的数据放在一个数组
sample
filter留下满足条件的
groupKeyKeyRDD[K,V]按传入函数的返回值进行分组,key值相同为一组
distinct去重
groupBy自定义分组 分组条件就是自定义传进去的
sortBy排序,按正序排

(2)Actions

算子描述
collect数组的形式返回数据集的所有元素
foreach打印每个元素
count统计RDD条数
reduce聚合rdd中的元素,rdd.reduce(+)就是每个元素相加
first取元素里面的第一个元素,底层调用的是take方法
take(n)前n个元素组成的数组
top(n)返回最大的前n个元素,底层调用的是takeOrdered
takeOrdered排序后的前n个元素组成的数组
countByKey每种key的个数
countByKey每种key的个数
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值