2020年11月_大数志

11月

翻译深入浅出Spark Join

文章目录影响Spark Join操作的三个因素输入数据集的大小Join条件Join类型Spark Join的执行机制Hash JoinBroadcast Hash JoinShuffle Hash JoinSort Merge JoinCartesian JoinBroadcast Nested Loop JoinSpark如何选择Join机制何时使用Broadcast Hash Join何时使用Shuffle Hash Join何时使用Sort Merge Join何时使用Cartesian Join何时

2020-11-28 10:43:00 344

翻译过滤Spark数据集的四种方法

文章目录FilterMapMapPartitionsInner Join总结在实际工作中，根据某个字段，对一个Spark数据集进行过滤，是一个很常见的场景，举个例子：一个存储公司员工信息的数据集A，有以下三个字段：id: Integername: Stringage: Integer现在要过滤出某些员工的id，这些id在B集合（B可能是哈希表，也可能是Spark数据集）中，过滤逻辑为：C = A.filter(A.id in B)有四种方法可以实现，分别为：FilterMapMa

2020-11-16 20:50:31 3950

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

翻译 深入浅出Spark Join

翻译 过滤Spark数据集的四种方法

空空如也

空空如也

翻译深入浅出Spark Join

翻译过滤Spark数据集的四种方法