2016年03月_heayin123

05月 03月 02月 01月

原创 spark源码系列文章目录

spark-streaming系列------- 1. spark-streaming的Job调度上spark-streaming系列------- 2. spark-streaming的Job调度下

2016-03-20 20:05:13 1290

原创 Spark RDD系列----3. rdd.coalesce方法的作用

当spark程序中，存在过多的小任务的时候，可以通过 RDD.coalesce方法，收缩合并分区，减少分区的个数，减小任务调度成本，避免Shuffle导致，比RDD.repartition效率提高不少。 rdd.coalesce方法的作用是创建CoalescedRDD，源码如下：def coalesce(numPartitions: Int, shuffle: Boolean = f

2016-03-31 18:32:56 10561

原创 spark解决方案系列--------1.spark-streaming实时Join存储在HDFS大量数据的解决方案

spark-streaming实时接收数据并处理。一个非常广泛的需求是spark-streaming实时接收的数据需要跟保存在HDFS上的大量数据进行Join。要实现这个需求保证实时性需要解决以下几个问题：1.spark-streaming的数据接收间隔往往很小，比如只有几秒钟。HDFS上的数据如果很大的话，不能每个接收batch都从HDFS读取数据，避免频繁大量磁盘I/O2.HDFS大量

2016-03-30 10:05:21 11340 10

原创 Spark SQL系列------2. Spark SQL Aggregate操作的实现

本篇文章主要将Aggregate操作的时候的数据存储和实现过程

2016-03-02 18:03:39 3269 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人