spark
文章平均质量分 79
duke.8747
个人邮箱duke.gz.zip@gmail.com
展开
-
Spark SQL 查询引擎Catalyst分析
Spark SQL 查询引擎Catalyst分析Catalyst整体架构图Catalyst执行流程)Catalyst整体架构图Catalyst执行流程catalyst是spark sql的调度核心,遵循传统数据库查询解析步骤,对sql进行解析,转换为逻辑查询计划,物理查询计划,最终转化为Spark的DAG后在执行,下图为Catalyst的执行流程。SqlParser将SQL语句转换...原创 2018-12-12 22:40:30 · 589 阅读 · 1 评论 -
Spark SQL 优化策略
Spark SQL 优化策略内存列式存储与内存缓存表列式存储压缩逻辑查询优化Join优化Spark SQL除了在查询上做了优化同时也在存储上做了优化,下面是sarpk sql的一些优化策略。内存列式存储与内存缓存表Spark SQL通过cacheTable将数据存储转换为列式存储,同时将数据加载到内存进行缓存。cacheTable相当于在分布式集群的内存物化试图,将数据进行缓存,这样迭代的或...原创 2018-12-13 23:19:44 · 776 阅读 · 0 评论 -
Spark容错机制,Lineage,Checkpoint
Spark容错机制,Lineage,CheckpointLineage机制Checkpoint机制一般来说,分布式数据集的容错性有两种方式:数据检查点和记录数据的更新。面向大树据处理检查点机制的代价更高,需要通过数据中心的网络连接在不同的机器之间复制数据,而网络的带宽往往比内存的带宽低的多,并且需要消耗大量的存储资源。因此spark选择了记录数据的更新,但是记录的太细也会消耗大量的资源。因此,...原创 2018-12-21 17:00:41 · 999 阅读 · 0 评论 -
spark运行逻辑
spark运行逻辑1.架构2.运行逻辑1.架构Driver 运行Application的main函数和初始化SparkContextClient 用户提交作业的客户端Worker 集群中任何可以运行Application代码的节点,运行一个或多个Executor进程Executor 运行在Worker上的Task执行器,Executor启动线程池运行task,并且负责将数据写入内存或是磁...原创 2018-12-12 10:14:04 · 518 阅读 · 0 评论 -
Spark资源调优
Spark资源调优原创 2018-12-31 08:28:06 · 341 阅读 · 0 评论 -
MapReduce的Shuffle和Spark的Shuffle过程对比
MapReduce的Shuffle和Spark的Shuffle过程对比MapReduceMapReduceMapReduce计算模型分为map和reduce两个重要阶段,map是映射,负责数据的过滤分发。reduce是规约,负责数据的计算归并,map将数据传递给reduce,reduce需要通过shuffle来读取数据。map输出到reduce的输入广义的称之为Shuffle。Shuffle横...原创 2018-12-25 20:19:41 · 4112 阅读 · 2 评论 -
spark性能优化: shuffle调优,数据倾斜调优
spark性能优化: shuffle调优,数据倾斜调优在日常开发spark任务的过程中,我们有时会发现在某个Stage中一个task或是几个task相对于其它的task的执行速度慢,那这个stage的执行时间就取决于最慢的task的执行时间,这个时候可能就发生了数据倾斜。何谓数据倾斜?数据倾斜指的是,并行处理的数据集中,某一部分(如Spark或Kafka的一个Partition)的数据显著多于...原创 2019-01-12 21:08:05 · 558 阅读 · 4 评论 -
Spark on Yarn的运行流程,以及两种模式的对比
Spark on Yarn的运行流程,以及两种模式的对比Yarn组件简介Spark组件Yarn组件简介ResourceManager:负责整个集群的资源管理和资源分配NodeManager:每个节点的资源和任务的管理器,负责启动和停止Container,并监视资源使用情况ApplicationMaster:Yarn中每个Application对应一个AM进程,获取资源后告诉NodeMan...原创 2019-01-21 14:53:21 · 4904 阅读 · 0 评论