自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 资源 (1)
  • 收藏
  • 关注

原创 spark源码系列文章目录

spark-streaming系列------- 1. spark-streaming的Job调度 上spark-streaming系列------- 2. spark-streaming的Job调度 下

2016-03-20 20:05:13 1290

原创 Spark RDD系列----3. rdd.coalesce方法的作用

当spark程序中,存在过多的小任务的时候,可以通过 RDD.coalesce方法,收缩合并分区,减少分区的个数,减小任务调度成本,避免Shuffle导致,比RDD.repartition效率提高不少。    rdd.coalesce方法的作用是创建CoalescedRDD,源码如下:def coalesce(numPartitions: Int, shuffle: Boolean = f

2016-03-31 18:32:56 10561

原创 spark解决方案系列--------1.spark-streaming实时Join存储在HDFS大量数据的解决方案

spark-streaming实时接收数据并处理。一个非常广泛的需求是spark-streaming实时接收的数据需要跟保存在HDFS上的大量数据进行Join。要实现这个需求保证实时性需要解决以下几个问题:1.spark-streaming的数据接收间隔往往很小,比如只有几秒钟。HDFS上的数据如果很大的话,不能每个接收batch都从HDFS读取数据,避免频繁大量磁盘I/O2.HDFS大量

2016-03-30 10:05:21 11340 10

原创 Spark SQL系列------2. Spark SQL Aggregate操作的实现

本篇文章主要将Aggregate操作的时候的数据存储和实现过程

2016-03-02 18:03:39 3269 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除