Spark 常用算子

常用的执行算子action:
1.reduce:将我们传入的值进行一个一个的加和然后返回最终一条语句
2.collect:将RDD中所有元素获取到本地客户端
3.count :统计有几个元素,获取RDD元素总素
4.first 获取第一元素
5.take:可以获取前几个元素
6.top:可以获取前几个元素
    take 与top的区别:take不会对元素进行排序而获取前几个元素,而top会对元素进行排序(降序),然后获取前几个元素
7.saveAsTextFile:将RDD元素保存到文件中,对每个元素调用toString方法
8.countByKey:对每个key对应的值进行count计算,统计相同key出现的次数
9.foreach:便利RDD中的每个元素

常用的转换算子transformation:

1.map:一对一,返回一个新的集合,将RDD中的每个元素传入自定义函数,获取一个新的元素,然后用新的元素组成新的RDD。。
2.flatmap:一对多,返回一个新的集合,以map类似,但是对每个元素都可以返回一个或多个新元素。
3.filter:对RDD中每个元素进行判断,如果返回true则保留,返回flase则去除。
4.mapToPair:获取指定key -vlaue
5.groupbykey:对key值去重,对value值相加,根据key进行分组,每个key对应一个Iterable<value>
6.reducebykey:对key值去重,对value值相加 对每个对应的value进行reduce操作
7.groupby:对指定的内容进行分组
8.sortBy:对指定内容进行排序,默认升序,点reverse降序
9.sortbykey: 对指定的key值进行排序
10.values:求取key-value对的value
11.mapValues:求取key-value的的value并可以进行map操作
12.join:对两个包含<key,value>对的RDD进行join操作,每个key join上的pair,都会传入自定义函数进行处理
13,cogroup同join,但是是每个key对应的Iterable<value>都会传入自定义函数进行处理,先进行每个分区的keyvalue聚合,在进行匹配
14.leftOuterJoin:对相同key进行匹配,value相同的都显示,否则显示一个

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值