博客专栏  >  云计算/大数据   >  大数据畅谈

大数据畅谈

分享大数据领域内的杂谈、原理以及实践等

关注
3 已关注
10篇博文
  • Curator在大数据集群可靠性中的应用以及改进

    Curator在大数据集群可靠性中的应用以及改进Curator简介大家都知道,ZooKeeper是当前大数据领域内常用的分布式协调组件。几乎在所有的大数据、分布式处理组件中都能见到它的应用。但由于Zo...

    2017-04-25 00:09
    1016
  • Spark SQL中的聚合(Aggregate)实现

    Spark SQL中的聚合(Aggregate)实现Sort Based Aggregate首先来说说实现比较简单(但实际执行起来却不简单)的Sort Based Aggregate。顾名思义,这是一...

    2017-04-08 16:50
    1411
  • SparkSQL中的Sort实现(二)

    SparkSQL中的Sort实现二 用到的数据结构 UnsafeInMemorySorter UnsafeExternalSorter prefix comparator record compara...

    2017-03-12 22:40
    764
  • SparkSQL中的Sort实现(一)

    SparkSQL中同样支持Order by和Sort by两种操作,本篇文章简单介绍Order by的分区间排序。

    2016-12-18 18:36
    1309
  • SparkSQL的3种Join实现

    本文简单介绍SparkSQL中的几种Join实现。SparkSQL会根据用户配置,对不同大小的表应用不同的Join策略,兼顾效率和稳定性。

    2016-12-12 23:06
    6846
  • 我是怎么在Spark中踩到Jetty的坑的

    开源好,apache妙,只因你们坑踩得少 T_T

    2016-11-16 23:37
    621
  • Spark大师之路:广播变量(Broadcast)源码分析

    概述 最近工作上忙死了……广播变量这一块其实早就看过了,一直没有贴出来。 本文基于Spark 1.0源码分析,主要探讨广播变量的初始化、创建、读取以及清除。   类关系 BroadcastManage...

    2014-07-09 01:59
    8031
  • Spark 1.0.0版本发布

    前言 今天Spark终于跨出了里程碑的一步,1.0.0版本的发布标志着Spark已经进入1.0时代。1.0.0版本不仅加入了很多新特性,并且提供了更好的API支持。Spark SQL作为一个新的组件...

    2014-05-31 00:07
    2838
  • Spark大师之路:Spark的配置系统

    简介 Spark的配置系统主要分为三个部分:第一个部分是控制Spark

    2014-04-14 00:19
    6125
  • Spark大师之路:使用maven编译Spark

    系统环境: maven版本

    2014-04-10 00:00
    7514
img博客搬家
img撰写博客
img发布 Chat
img专家申请
img意见反馈
img返回顶部