这篇文章主要用来记录工作学习中遇到的常见RDD算子和操作。
目录
join算子
主要用于两个拥有相同或者不同key的RDD相互join
join(otherDataset,[numPartition]) 当算子作用在(K,V)和(K,W)类型的数据集上时,会将相同K的元素合并,返回(K,(V,W));对应的还有leftOuterJoin, rightOuterJoin, fullOuterJoin
join:仅返回双方共有的元素
leftOuterJoin:返回左方有的元素,缺失值用None替代
rightOuterJoin:返回右方有的元素,缺失值用None替代
多次join会:回返回多个元组的嵌套结果,如(K,(V1,(V2,V3)))
实例:join, leftOuterJoin, r