Spark
sperospera
这个作者很懒,什么都没留下…
展开
-
Spark SQL Join类型
Spark SQL join工作是通过使用executors 操作DataFrame的多个分区,具体的过程和性能依赖join type和datasets的特征。join的过程中,包含了shuffle join 和broadcast join;在两个大的datasets join的过程中,进行了 shuffle join,使左右的dataset的分区数据到达executors。如: ...原创 2019-04-12 00:24:37 · 1932 阅读 · 0 评论 -
Spark中的groupByKey,reduceByKey,combineBykey,和aggregateByKey的比较和区别
groupByKey 按照key进行分组,得到相同key的值的sequence,可以通过自定义partitioner,完成分区,默认情况下使用的是HashPartitioner,分组后的元素的顺序不能保证,可能每一次的执行得到的结果都不相同。所有的数据需要进行shuffler,消耗资源。key-value键值对需要加载到内存中,若某个key有太多的value,可能发生OutOfMemoryErro...原创 2019-04-09 23:14:42 · 4222 阅读 · 0 评论