Spark
文章平均质量分 57
大数据开发
励志成为未来大数据开发的领军人物!
展开
-
理解Spark的核心RDD
要理解Spark,就需得理解RDD。 RDD是什么? RDD,全称为Resilient Distributed Datasets,是一个容错的、并行的数据结构,可以让用户显式地将数据存储到磁盘和内存中,并能控制数据的分区。同时,RDD还提供了一组丰富的操作来操作这些数据。在这些操作中,诸如map、flatMap、filter等转换操作实现了monad模式,很好地契合了Scala的集合操作。除此原创 2017-03-05 21:28:48 · 300 阅读 · 0 评论 -
Spark调度模式-FIFO和FAIR
Spark中的调度模式主要有两种:FIFO和FAIR。默认情况下Spark的调度模式是FIFO(先进先出),谁先提交谁先执行,后面的任务需要等待前面的任务执行。而FAIR(公平调度)模式支持在调度池中为任务进行分组,不同的调度池权重不同,任务可以按照权重来决定执行顺序。对这两种调度模式的具体实现,接下来会根据spark-1.6.0的源码来进行详细的分析。使用哪种调度器由参数spark.schedu转载 2017-03-27 17:17:54 · 1338 阅读 · 0 评论 -
sparkSQL学习笔记1
1、SparkSQL的发展历程 1.1 Hive and Shark SparkSQL的前身是Shark,给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,Hive应运而生,它是当时唯一运行在Hadoop上的SQL-on-Hadoop工具。但是MapReduce计算过程中大量的中间磁盘落地过程消耗了大量的I/O,降低的运行效率,为了提高SQL-on-Hadoop的效率,原创 2017-04-15 16:06:04 · 319 阅读 · 0 评论 -
SparkStreaming 运行架构
SparkStreaming 进行数据的处理大致分为四个步骤: 启动流处理引擎、接受以及存储数据、处理数据、输出结果等。 (1)初始化StreamingContext对象,在该对象启动过程中实例化DStreamGraph和JobGenrator,其中DStreamGraph用于存放DStream以及之间的依赖关系等信息,而jobscher中ReceiverTracker和JobGentator。原创 2017-04-24 17:40:59 · 340 阅读 · 0 评论 -
Spark性能优化指南——基础篇
Spark性能优化指南——基础篇 李雪蕤 ·2016-04-29 14:00 前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学转载 2017-07-16 17:23:02 · 361 阅读 · 0 评论 -
Spark性能优化指南——高级篇
Spark性能优化指南——高级篇 前言 继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。 数据倾斜调优 调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。转载 2017-07-16 18:14:14 · 418 阅读 · 0 评论