spark
文章平均质量分 86
徐小慧_Blog
这个作者很懒,什么都没留下…
展开
-
Spark运行架构(一)
Spark运行架构1. 运行架构2. 核心组件2.1 Driver2.2 Executor2.3 Master & Worker2.4 ApplicationMaster3. 运行模式3.1 Yarn Client模式3.2 Yarn Cluster模式4. 提交流程1. 运行架构Spark框架的核心是一个计算引擎,整体来说,它采用了标准 master-slave 的结构。如下图所示,它展示了一个 Spark执行时的基本结构。图形中的Driver表示master,负责管理整个集群中的作业任务原创 2021-09-15 14:30:02 · 763 阅读 · 1 评论 -
Spark 为什么比 Hadoop 快(六)
Spark 基于 Hadoop MapReduce 算法实现的分布式计算,拥有 Hadoop MapReduce 所具有的优点,并且具有更高的运算速度。Spark 能够比 Hadoop 运算更快,主要原因是:Hadoop 在一次 MapReduce 运算之后,会将数据的运算结果从内存写入到磁盘中,第二次 MapReduce 运算时在从磁盘中读取数据,两次对磁盘的操作,增加了多余的 IO 消耗;而 Spark 则是将数据一直缓存在内存中,运算时直接从内存读取数据,只有在必要时,才将部分数据写入到磁盘中。除此之原创 2021-09-14 10:34:19 · 1010 阅读 · 0 评论 -
Spark SQL原理及常用方法详解(二)
Spark SQL一、Spark SQL基础知识1、Spark SQL简介(1)简单介绍(2)Datasets & DataFrames(3)Spark SQL架构(4)Spark SQL的特点二、入门案例1、案例代码2、SparkSession3、代码分析(1)创建spark Session(2)创建Dataset样例类创建Tuple创建JSON创建RDD创建(3)创建DataframeJson创建样例类创建Tuple创建RDD创建三、SQL操作(常用的操作方法)printSchema()show原创 2021-08-09 11:04:02 · 2416 阅读 · 0 评论 -
Spark性能优化指南——基础篇(三)
Spark性能优化指南——基础篇调优概述原则一:避免创建重复的RDD原则二:尽可能复用同一个RDD原则三:对多次使用的RDD进行持久化原则四:尽量避免使用shuffle类算子原则五:使用map-side预聚合的shuffle操作原则六:使用高性能的算子原则七:广播大变量原则八:使用Kryo优化序列化性能原则九:优化数据结构**资源参数调优**整套方案主要分为开发调优、资源调优、数据倾斜调优、shuffle调优几个部分。开发调优和资源调优是所有Spark作业都需要注意和遵循的一些基本原则,是高性能Spark转载 2021-08-09 17:25:03 · 455 阅读 · 0 评论 -
Spark性能优化指南——高级篇(四)
Spark性能优化指南——高级篇调优概述数据倾斜发生时的现象数据倾斜发生的原理如何定位导致数据倾斜的代码某个task执行特别慢的情况某个task莫名其妙内存溢出的情况查看导致数据倾斜的key的数据分布情况数据倾斜的解决方案解决方案一:使用Hive ETL预处理数据解决方案二:过滤少数导致倾斜的key解决方案三:提高shuffle操作的并行度解决方案四:两阶段聚合(局部聚合+全局聚合)解决方案五:将reduce join转为map join解决方案六:采样倾斜key并分拆join操作解决方案七:使用随机前缀和转载 2021-08-09 17:54:39 · 666 阅读 · 0 评论 -
spark与flink的区别(五)
spark与flink的区别(1)设计理念(2)架构方面(3)任务调度(4)时间机制(5)容错机制(6)吞吐量与延迟(1)设计理念1、Spark的技术理念是使用微批来模拟流的计算,基于Micro-batch,数据流以时间为单位被切分为一个个批次,通过分布式数据集RDD进行批量处理,是一种伪实时。2、Flink是基于事件驱动的,是面向流的处理框架, Flink基于每个事件一行一行地流式处理,是真正的流式计算. 另外他也可以基于流来模拟批进行计算实现批处理。(2)架构方面1、Spark在运行时的主要角原创 2021-08-10 14:26:45 · 1203 阅读 · 0 评论