取值操作(RDD):
take(n):返回n个元素
top(n):返回最大的n个元素
first():返回第一个元素
collect():返回所有元素
元素变换(RDD):
1、map()
map()函数需要一个参数,参数是一个函数,通过这个函数变换之后,返回一个新的RDD,函数一般用lambda
2、flatMap()
对RDD每一个元素执行函数变换,返回一个迭代器,最后展平结果
3、filter()
通过函数对元素进行过滤,只有结果为Ture才返回
4、uunion(): 联合 (两个rdd并集)
intersection(): 交集
subtract(): 差集
cartesian(): 笛卡尔
元素操作(RDD):
1、count(): 返回rdd元素个数
2、reduce(): 并行汇总所有rdd元素
3、aggregate():
键值变换(RDD):
1、reduceByKey():在每一个键组内进行汇总变换
2、groupByKey():将值放到相同键内,类似于reduceByKey的汇总,值是一个迭代器
3、sortByKey():得到以键排序的RDD 当条件为Ture或False为正序或倒序
4、mapValues():可以理解为是将键值RDD中的值作为参数传递的map函数
5、combineByKey():
键、值 操作(RDD):
1、countByKey():返回每一键组内的记录数,是一个字典
2、lookup():返回某键下的所有值
3、collectAsMap():返回以map形式的串行结果