大数据畅谈
文章平均质量分 92
分享大数据领域内的杂谈、原理以及实践等
狗叔
这个作者很懒,什么都没留下…
展开
-
Curator在大数据集群可靠性中的应用以及改进
Curator在大数据集群可靠性中的应用以及改进Curator简介大家都知道,ZooKeeper是当前大数据领域内常用的分布式协调组件。几乎在所有的大数据、分布式处理组件中都能见到它的应用。但由于ZooKeeper提供的原始API并不是很易用,在其基础上封装一些高级应用(服务发现、分布式锁、Master选举等)需要处理到很多细节,是一件很复杂的事情。Curator在此场景下应运而生,由Netflix原创 2017-04-25 00:09:27 · 2125 阅读 · 0 评论 -
Spark SQL中的聚合(Aggregate)实现
Spark SQL中的聚合(Aggregate)实现Sort Based Aggregate首先来说说实现比较简单(但实际执行起来却不简单)的Sort Based Aggregate。顾名思义,这是一种基于排序的聚合实现,在进行聚合之前,会根据grouping key进行分区以及分区内排序,将具有相同grouping key的记录都分布在同一个partition内且前后相邻,聚合时只需要顺序遍历整个原创 2017-04-08 16:50:08 · 8958 阅读 · 0 评论 -
SparkSQL中的Sort实现(二)
SparkSQL中的Sort实现二 用到的数据结构 UnsafeInMemorySorter UnsafeExternalSorter prefix comparator record comparator 数据的插入 prefix computer 数据插入 数据的排序 无spill radix sort Tim sort 有spill 后记SparkSQL中的Sort实现(二)上节说到Spark原创 2017-03-12 22:40:39 · 4129 阅读 · 1 评论 -
SparkSQL中的Sort实现(一)
SparkSQL中同样支持Order by和Sort by两种操作,本篇文章简单介绍Order by的分区间排序。原创 2016-12-18 18:36:37 · 9413 阅读 · 0 评论 -
SparkSQL的3种Join实现
本文简单介绍SparkSQL中的几种Join实现。SparkSQL会根据用户配置,对不同大小的表应用不同的Join策略,兼顾效率和稳定性。原创 2016-12-12 23:06:16 · 17772 阅读 · 3 评论 -
我是怎么在Spark中踩到Jetty的坑的
开源好,apache妙,只因你们坑踩得少 T_T原创 2016-11-16 23:37:01 · 3516 阅读 · 0 评论 -
Spark大师之路:广播变量(Broadcast)源码分析
概述 最近工作上忙死了……广播变量这一块其实早就看过了,一直没有贴出来。 本文基于Spark 1.0源码分析,主要探讨广播变量的初始化、创建、读取以及清除。 类关系 BroadcastManager类中包含一个BroadcastFactory对象的引用。大部分操作通过调用BroadcastFactory中的方法来实现。 BroadcastFactory是一个Trait,有两个直接子原创 2014-07-09 01:59:29 · 10315 阅读 · 0 评论 -
Spark 1.0.0版本发布
前言 今天Spark终于跨出了里程碑的一步,1.0.0版本的发布标志着Spark已经进入1.0时代。1.0.0版本不仅加入了很多新特性,并且提供了更好的API支持。Spark SQL作为一个新的组件加入,支持在Spark上存储和操作结构化的数据。已有的标准库比如ML、Streaming和GraphX也得到了很大程度上的增强,对Spark和Python的接口也变得更稳定。以下是几个主要的改进点原创 2014-05-31 00:07:52 · 3544 阅读 · 2 评论 -
Spark大师之路:Spark的配置系统
简介 Spark的配置系统主要分为三个部分:第一个部分是控制Spark原创 2014-04-14 00:19:01 · 9380 阅读 · 0 评论 -
Spark大师之路:使用maven编译Spark
系统环境: maven版本原创 2014-04-10 00:00:47 · 9194 阅读 · 4 评论