- 博客(4)
- 资源 (1)
- 收藏
- 关注
原创 spark源码系列文章目录
spark-streaming系列------- 1. spark-streaming的Job调度 上spark-streaming系列------- 2. spark-streaming的Job调度 下
2016-03-20 20:05:13 1290
原创 Spark RDD系列----3. rdd.coalesce方法的作用
当spark程序中,存在过多的小任务的时候,可以通过 RDD.coalesce方法,收缩合并分区,减少分区的个数,减小任务调度成本,避免Shuffle导致,比RDD.repartition效率提高不少。 rdd.coalesce方法的作用是创建CoalescedRDD,源码如下:def coalesce(numPartitions: Int, shuffle: Boolean = f
2016-03-31 18:32:56 10561
原创 spark解决方案系列--------1.spark-streaming实时Join存储在HDFS大量数据的解决方案
spark-streaming实时接收数据并处理。一个非常广泛的需求是spark-streaming实时接收的数据需要跟保存在HDFS上的大量数据进行Join。要实现这个需求保证实时性需要解决以下几个问题:1.spark-streaming的数据接收间隔往往很小,比如只有几秒钟。HDFS上的数据如果很大的话,不能每个接收batch都从HDFS读取数据,避免频繁大量磁盘I/O2.HDFS大量
2016-03-30 10:05:21 11340 10
原创 Spark SQL系列------2. Spark SQL Aggregate操作的实现
本篇文章主要将Aggregate操作的时候的数据存储和实现过程
2016-03-02 18:03:39 3269 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人