spark
adu_200000
这个作者很懒,什么都没留下…
展开
-
Spark集群基础概念 与 spark架构原理
一、Spark集群基础概念 将DAG划分为多个stage阶段,遵循以下原则:1、将尽可能多的窄依赖关系的RDD划为同一个stage阶段。2、当遇到shuffle操作,就意味着上一个stage阶段结束,下一个stage阶段开始二、spark架构原理 1、Spark架构原理 Driver 进程 ...转载 2019-01-27 12:15:55 · 245 阅读 · 0 评论 -
Spark Broadcast(广播变量)总结
目录为什么要使用广播(broadcast)变量?Spark中Broadcast定义官网定义:Broadcast.scala类定义:为什么要使用广播(broadcast)变量? Spark中因为算子中的真正逻辑是发送到Executor中去运行的,所以当Executor中需要引用外部变量时,需要使用广播变量。进一步解释:如果executor端用到了Driver...转载 2019-09-06 13:49:07 · 1864 阅读 · 0 评论 -
coalesce 与 repartition的区别
目录一.spark 分区 partition的理解二.coalesce 与 repartition的区别(我们下面说的coalesce都默认shuffle参数为false的情况)三.实例 1. coalesce 2. repartition四.总结一.spark 分区 partition的理解 spark中是以vcore级别...转载 2019-08-23 09:44:37 · 4553 阅读 · 1 评论 -
Spark之RDD依赖关系及DAG逻辑视图
目录一、窄依赖解析二、宽依赖解析三、DAG生成的机制四、DAG逻辑视图解析 RDD依赖关系为成两种:窄依赖(Narrow Dependency)、宽依赖(Shuffle Dependency)。窄依赖表示每个父RDD中的Partition最多被子RDD的一个Partition所使用;宽依赖表示一个父RDD的Partition都会被多个子RDD的Partition所使用。一...转载 2019-06-18 18:01:40 · 369 阅读 · 0 评论 -
spark中dag的介绍
目录什么是DAGDAG 解决了什么问题DAG 是怎么工作的工作流程注意点DAG,全称 Directed Acyclic Graph, 中文为:有向无环图。在 Spark 中, 使用 DAG 来描述我们的计算逻辑。什么是DAGDAG 是一组顶点和边的组合。顶点代表了 RDD, 边代表了对 RDD 的一系列操作。DAG Scheduler 会根据 RDD 的 t...转载 2019-06-18 17:06:24 · 6197 阅读 · 0 评论 -
spark agg算子使用
1、agg(expers:column*) 返回dataframe类型 ,同数学计算求值df.agg(max("age"), avg("salary"))df.groupBy().agg(max("age"), avg("salary"))2、agg(exprs: Map[String, String])返回dataframe类型 ,同数学计算求值 map类型的df.agg(M...原创 2019-06-17 19:02:04 · 7576 阅读 · 0 评论 -
Spark中的宽窄依赖细述
Spark中RDD的高效与DAG图有着莫大的关系,在DAG调度中需要对计算过程划分stage,而划分依据就是RDD之间的依赖关系。针对不同的转换函数,RDD之间的依赖关系分类窄依赖(narrow dependency)和宽依赖(wide dependency, 也称 shuffle dependency)。宽依赖与窄依赖窄依赖是指父RDD的每个分区只被子RDD的一个分区所使用...转载 2019-06-14 10:58:47 · 895 阅读 · 0 评论 -
spark调优之shuffle调优
spark调优系列(一)开发调优spark调优系列(二) 资源调优spark调优系列(三)数据倾斜调优spark调优系列(四)shuffle调优------------------------------------------------------------------------------------------------------------------------...转载 2019-06-14 09:41:28 · 202 阅读 · 0 评论 -
spark调优之资源调优
spark调优系列(一)开发调优spark调优系列(二) 资源调优spark调优系列(三)数据倾斜调优spark调优系列(四)shuffle调优---------------------------------------------------------------------------------------------------------------------...转载 2019-06-12 19:46:07 · 145 阅读 · 0 评论 -
spark调优之开发调优
spark调优系列(一)开发调优spark调优系列(二) 资源调优spark调优系列(三)数据倾斜调优spark调优系列(四)shuffle调优---------------------------------------------------------------------------------------------------------------------...转载 2019-06-12 19:44:08 · 204 阅读 · 0 评论 -
spark调优之数据倾斜调优
spark调优系列(一)开发调优spark调优系列(二) 资源调优spark调优系列(三)数据倾斜调优spark调优系列(四)shuffle调优---------------------------------------------------------------------------------------------------------------------...转载 2019-06-12 17:35:36 · 226 阅读 · 0 评论 -
spark中的shuffle具体过程
目录Shuffle描述Spark ShuffleShuffle WriteShuffle Fetch and Aggregator 在MapReduce框架中,shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接影响了整个程序的性能和吞吐量。Spark作为MapReduce框...转载 2019-02-12 11:46:14 · 1002 阅读 · 2 评论 -
spark中的广播变量和累加器
目录一、前述二、具体原理1、广播变量 2、累加器一、前述Spark中因为算子中的真正逻辑是发送到Executor中去运行的,所以当Executor中需要引用外部变量时,需要使用广播变量。累机器相当于统筹大变量,常用于计数,统计。二、具体原理1、广播变量广播变量理解图 注意事项1、能不能将一个RDD使用广播变量广播出去? 不...转载 2019-02-11 11:37:18 · 312 阅读 · 0 评论 -
SPark 中RDD的介绍
目录背景描述RDD介绍1.基本概念2.spark接口3.RDDs接口5个特性4.RDDs依赖关系5.作业调度6.内存管理7.检查点支持(checkpoint) 最后总结 背景描述 在hadoop中一个独立的计算,例如在一个迭代过程中,除可复制的文件系统(HDFS)外没有提供其他存储的概念,这就导致在网络上进行数据复制而增加了大量的消耗...转载 2019-02-02 16:57:54 · 310 阅读 · 0 评论 -
SPARK中shuffle的机制和原理分析
目录概述一 HashShuffle机制1.1 HashShuffle概述1.2 没有优化之前的HashShuffle机制1.3 优化后的HashShuffle二 Sort-Based Shuffle2.1 Sort-Based Shuffle概述2.2 Sorted-Based Shuffle介绍概述 Shuffle就是对数据进行重组,由于分布...转载 2019-01-27 22:14:27 · 312 阅读 · 0 评论 -
UDAF和UDF的介绍
目录UDF介绍UDAF简介关于UDAF的一个误区使用UDF在SQL语句中使用UDF直接对列应用UDF(脱离sql)UDAF使用继承UserDefinedAggregateFunction继承AggregatorUDF介绍UDF(User Define Function),即用户自定义函数,Spark的官方文档中没有对UDF做过多介绍,猜想可能是认...转载 2019-09-10 11:17:39 · 2068 阅读 · 0 评论