RDD操作大致分为转换操作和行动操作,由于spark的惰性机制,导致在遇到行动操作前是不会进行运算的, 直到遇到行动才做才出发运算。
转换操作:
filter 过滤
map 转换函数
flatMap 与map类似,但是映射为0个或多个
groupByKey 返回key,iterable
reduceByKey 返回一个新的(K,V)形式的数据集,其中的每个值是将每个key传递到函数func中进行聚合
行动操作:
count() 返回数据集的元素个数
collect() 以数组的形式饭后数据集中的所有元素
first() 返回集合中的第一个元素
take(n) 以数组的形式返回数据集中的前n个元素
reduce(func) 通过函数func(输入两个参数并返回一个值)聚合数据集中的元素
foreach(func) 将数据集中的每个元素传递到函数func中运行