Action行动算子
-
概念:Action类算子也是一类算子(函数)叫做行动算子,如foreach,collect,count等。Transformations类算子是延迟执行,Action类算子是
触发执行
。一个application应用程序中有几个Action类算子执行,就有几个job运行
-
常用算子:
count: 返回数据集中的元素数。会在结果计算完成后回收到Driver端
take(n): 返回一个包含数据集前n个元素的集合
first: first=take(1),返回数据集中的第一个元素
foreach: 循环遍历数据集中的每个元素,运行相应的逻辑
collect: 将计算结果回收到Driver端
foreachPartition: 遍历的数据是每个partition的数据。
countByKey: 作用到K,V格式的RDD上,根据Key计数相同Key的数据集元素。
countByValue: 根据数据集每个元素相同的内容来计数。返回相同内容的元素对应的条数。
reduce: 根据聚合逻辑聚合数据集中的每个元素。