一、Transformations转换算子
filter:过滤符合条件的记录数,true的保留、false的过滤
map:将RDD中的数据项,通过map中的函数映射变为一个新的元素(1进1出)
mapPartition:执行结果与map相同,但是可以一次遍历整个patition
mapPartitionWithIndex:类似于mapPartitions,除此之外还会携带分区的索引值
mapToPair:返回(k,v)格式的RDD
flatMap:对RDD中的数据项,先map再flat(1进多出)
flatMapToPair:对RDD中的数据项,先map再flat,在返回(k,v)格式的RDD
reduceByKey:将相同的Key根据逻辑进行处理
sample:抽样,传进一个比例值,可以选择传入参数决定是否有放回的抽样
sortBy/sortByKey:作用在K,V格式的RDD上,对Key进行升序或降序排序
join:作用在K,V格式的RDD上。根据K进行连接,对(K,V)join(K,W)返回(K,(V,W))
leftOuterJoin:作用在K,V格式的RDD上。根据K进行连接,对(K,V)join(K,W)返回(K,(V,W)),左边中的key为主,只显示左边中存在的key值
rightOuterJoin:作用在K,V格式的RDD上。根据K进行连接,对(K,V)jo