常见算子:
| 介绍 |
map | 将RDD中的每个元素传入自定义函数,获取一个新的元素,然后用新的元素组成新的RDD |
filter | 对RDD中每个元素进行判断,如果返回true则保留,返回false则剔除。 |
flatMap | 与map类似,但是对每个元素都可以返回一个或多个新元素。 |
gropuByKey | 根据key进行分组,每个key对应一个Iterable<value> |
reduceByKey | 对每个key对应的value进行reduce操作。 |
sortByKey | 对每个key对应的value进行排序操作。 |
join | 对两个包含<key,value>对的RDD进行join操作,每个key join上的pair,都会传入自定义函数进行处理。 |
cogroup | 同join,但是是每个key对应的Iterable<value>都会传入自定义函数进行处理。 |
操 | 介绍 |
reduce | 将RDD中的所有元素进行聚合操作。第一个和第二个元素聚合,值与第三个元素聚合,值与第四个元素聚合,以此类推。 |
collect | 将RDD中所有元素获取到本地客户端。 |
count | 获取RDD元素总数。 |
take(n) | 获取RDD中前n个元素。 |
saveAsTextFile | 将RDD元素保存到文件中,对每个元素调用toString方法 |
countByKey | 对每个key对应的值进行count计数。 |
foreach | 遍历RDD中的每个元素。 |
transformation和action原理剖析.png
来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/30541278/viewspace-2153498/,如需转载,请注明出处,否则将追究法律责任。
转载于:http://blog.itpub.net/30541278/viewspace-2153498/