spark数据处理-RDD
这篇文章主要用来记录工作学习中遇到的常见RDD算子和操作。
官方文档
目录
join算子
join算子
主要用于两个拥有相同或者不同key的RDD相互join
join(otherDataset,[numPartition]) 当算子作用在(K,V)和(K,W)类型的数据集上时,会将相同K的元素合并,返回(K,(V,W));对应的还有leftOuterJoin, rightOuterJoin, fullOuterJoin
join:仅返回双方共有的元素
leftOuterJ...
原创
2021-11-05 00:59:31 ·
265 阅读 ·
0 评论