RDD操作.2

1.sortBy

用func先对数据进行处理,按照处理后的数据比较结果排序

sortBy(func,[ascending], [numTasks]) 

第一个参数为以哪个参数排序,第二个为是否为正序排序,第三个参数为去值范围

2.sortByKey

在一个(K,V)的RDD上调用,K必须实现Ordered接口,返回一个按照key进行排序的(K,V)的RDD

sortByKey([ascending], [numTasks])

第一个参是是否为正序排序,第二个参数为去值范围

3.groupByKey

groupByKey(numPartition)

照key来进行分组,numPartition指的是分组之后的分区个数。

4.reduceByKey

对每一个key所对应的所有的value进行reduce操作

5.foldByKey

作用和reduceByKey一样,可以指定初始化值

foldByKey(1)(_ + _) 

6.aggregateByKey

作用和foldByKey一样,可以指定初始值,先进行分区内计算,再进行跨分区计算

aggregateByKey(1)(_ + _, _ + _)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值