![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
煮个代码蘸醋吃
这个作者很懒,什么都没留下…
展开
-
spark算子(repartition和coalesce)
coalescecoalesce(numPartitions:Int,shuffle:Boolean=false):RDD[T] 他们两个都是RDD的分区进行重新划分,repartition只是coalesce接口中shuffle为true的简易实现,(假设RDD有N个分区,需要重新划分成M个分区) 1)N转载 2016-11-02 11:34:50 · 5059 阅读 · 0 评论 -
spark调优(基础)
开发调优调优概述Spark性能优化的第一步,就是要在开发Spark作业的过程中注意和应用一些性能优化的基本原则。开发调优,就是要让大家了解以下一些Spark基本开发原则,包括:RDD lineage设计、算子的合理使用、特殊操作的优化等。在开发过程中,时时刻刻都应该注意以上原则,并将这些原则根据具体的业务以及实际的应用场景,灵活地运用到自己的Spark作业中。原则一:避免创建重复的RDD通常来说,我转载 2016-11-02 11:13:30 · 267 阅读 · 0 评论 -
spark二次排序
原始数据:[root@iteblog.com /tmp]# vim data.txt 2015,1,24 2015,3,56 2015,1,3 2015,2,-43 2015,4,5 2015,3,46 2014,2,64 2015,1,4 2015,1,21 2015,2,35 2015,2,0期望数据:2014-2 64 2015-1 3,4,21,24 2015-2 -43,0,35转载 2016-12-05 03:37:40 · 432 阅读 · 0 评论