Spark使用方法&技巧
大数志
公众号【大数志】
展开
-
深入浅出Spark Join
文章目录影响Spark Join操作的三个因素输入数据集的大小Join条件Join类型Spark Join的执行机制Hash JoinBroadcast Hash JoinShuffle Hash JoinSort Merge JoinCartesian JoinBroadcast Nested Loop JoinSpark如何选择Join机制何时使用Broadcast Hash Join何时使用Shuffle Hash Join何时使用Sort Merge Join何时使用Cartesian Join何时翻译 2020-11-28 10:43:00 · 366 阅读 · 0 评论 -
过滤Spark数据集的四种方法
文章目录FilterMapMapPartitionsInner Join总结在实际工作中,根据某个字段,对一个Spark数据集进行过滤,是一个很常见的场景,举个例子:一个存储公司员工信息的数据集A,有以下三个字段:id: Integername: Stringage: Integer现在要过滤出某些员工的id,这些id在B集合(B可能是哈希表,也可能是Spark数据集)中,过滤逻辑为:C = A.filter(A.id in B)有四种方法可以实现,分别为:FilterMapMa翻译 2020-11-16 20:50:31 · 4016 阅读 · 0 评论