0、前言
本文列举几个常见的pyspark动作函数,几个常见的转换函数点这里
count() | 返回数据集中的元素个数 |
---|---|
collect() | 以列表的形式返回数据集中的所有元素 |
first() | 返回数据集中的第一个元素 |
take(n) | 以数组的形式返回数据集中的前n个元素 |
reduce(func) | 通过函数func(输入两个参数并返回一个值)聚合数据集中的元素 |
foreach(func) | 将数据集中的每个元素传递到函数func中运行 |
1、collect()
rdd = sc.parallelize([1, 2, 3