大数据
文章平均质量分 93
白露塞纳
星辰!
展开
-
【面试】进阶篇(二)Spark核心原理
4、Spark 启动流程、处理流程5、Spark与Hadoop的区别是什么?6、Spark调度系统,Spark启动流程DAG作用,如何连起来,为什么根据宽窄依赖切割7、Spark shuffle演化?为什么根据shuffle来区分Stage?怎么划分?8、Spark Core是什么?1、Spark产生背景2、Spark基本操作:常用开发API与开发算子 - 基础知识在这个模块中,我们会从一个叫作“Word Count”的小项目开始。以 Word Count 的计算逻辑为线索,我们会去详细地讲原创 2021-10-20 15:37:57 · 848 阅读 · 2 评论 -
Spark学习大纲
大纲目录一、大纲一、Spark产生背景二、Spark基本操作:常用开发API与开发算子 - 基础知识三、Spark核心原理:分布式计算引擎。四、Spark应用场景:数据分析、机器学习和流计算。五、Spark性能优化六、Spark设计精髓:本质七、Spark未来发展:挑战、趋势、发展二、参考一、大纲一、Spark产生背景在学一个新技术之前,你有必要先了解这门技术出现的意义。这样,你才能更好地理解:它是应用到什么场景的?与同类工具相比,它的优缺点是什么?什么时候用它比其它工具好(或差)?……至少理原创 2021-10-20 08:24:21 · 350 阅读 · 0 评论 -
【面试】HDFS
问题大纲一、HDFS基础1、NameNode、DataNode与Secondary NameNode 作用(*2),SNN能接替NN吗?2、HDFS HA架构?如何实现NameNode HA(*3)?如何实现HA的选举,如NameNode选举。3、HDFS DataNode死了怎么办,NameNode发生了什么变化?4、HDFS EditLog写入了,但NameNode元信息没保存在内存中,数据不一致怎么办?二、HDFS 读写流程1、HDFS介绍,特性,可存储的文件格式2、HDFS读写流程(*3)追问1:写原创 2021-09-29 10:05:10 · 257 阅读 · 0 评论 -
【Spark】内存模型
一、简介1、背景Spark是基于内存的分布式计算引擎,内存模型与管理是核心知识点,理解它能更好地开发Spark应用和进行性能调优(解决作业GC耗时长问题—主要是Young GC)。2、总体架构 & 运行流程Spark整体运行流程:构建运行环境。由Driver创建SparkContext,进行资源申请、任务分配与监控;分配资源。SparkContext和Cluster Manager通信,为Executor申请资源,进行任务分配和监控,启动进程;分解Stage,申请Task。 Sp原创 2021-03-26 17:33:15 · 691 阅读 · 0 评论 -
【Spark】Shuffle详解
一、概要1、Shuffle调优概述Spark作业性能主要消耗在Shuffle环境,因为其中包含大量磁盘IO、序列化、网络数据传输等操作,如果想提升作业性能,有必要对Shuffle过程进行调优。但也要注意,影响Spark作业性能因素主要还是代码开发、资源参数以及数据倾斜,Shuffle调优只占一小部分,不要舍本逐末。2、Shuffle发生阶段3、触发 Shuffle 操作的算子分类操作Repartition相关repartition、coalesce、repartitionA原创 2021-03-20 17:05:34 · 1320 阅读 · 0 评论 -
【Spark】数据倾斜
一、含义、危害计算数据时,数据分散度不够,导致大量数据集中到一台或几台机器上计算。局部计算远低于平均计算速度,整个过程过慢。部分任务处理数据量过大,可能OOM,任务失败,进而应用失败。二、现象、原因1、现象:(Spark日志或监控)1、Executor lost、(Driver)OOM、Shuffle过程出错;2、正常运行任务突然失败;3、单个Executor执行时间特别久,整体任务卡在某个阶段不结束;Spark Streaming更容易出现数据倾斜,特别是包含SQL的join、grou原创 2021-03-19 15:04:42 · 322 阅读 · 0 评论