段智华的博客

热烈祝贺Gavin大咖2024年北京航空航天大学两本新书《Transformer&ChatGPT解密：原理、源码及案例》、《Transformer& Rasa 解密: 原理、源码及案例》出版发行，欢迎关注访问！

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 IDEA+SPARK 本地伪分布式开发日志调测

IDEA+SPARK 本地伪分布式开发日志调测：要在windows本地IDEA环境中伪分布式开发spark程序，观察spark框架运行的日志。开发代码：object SparkShell { def main(args: Array[String]): Unit = { Logger.getLogger("org").setLevel(Lev...

2017-05-30 22:15:26 1907 2

原创第35课：打通Spark系统运行内幕机制循环流程

第35课：打通Spark系统运行内幕机制循环流程Spark通过DAGScheduler面向整个Job划分出了不同的Stage，划分Stage之后，Stage从后往前划分，执行的时候从前往后执行，每个Stage内部有一系列的任务，Stage里面的任务是并行计算，并行任务的逻辑是完全相同的，但处理的数据不同。DAGScheduler以TaskSet的方式，把我们一个DAG构建的Stage中的所有任务

2017-05-30 07:57:15 747

原创第34课： Stage划分和Task最佳位置算法源码彻底解密

第34课： Stage划分和Task最佳位置算法源码彻底解密Spark作业调度的时候，Job提交过程中Stage 划分的算法以及Task最佳位置的算法。Stage的划分是DAGScheduler工作的核心，涉及作业在集群中怎么运行，Task最佳位置数据本地性的内容。Spark 算子的构建是链式的，涉及到怎么进行计算，首先是划分Stage，Stage划分以后才是计算的本身；分布式大数据系统追求最大

2017-05-29 07:51:48 763

原创第33课： Spark Executor内幕彻底解密：Executor工作原理图、ExecutorBackend注册源码解密、Executor实例化内幕、Executor具体工作内幕

第33课： Spark Executor内幕彻底解密：Executor工作原理图、ExecutorBackend注册源码解密、Executor实例化内幕、Executor具体工作内幕本节讲解Executor工作原理图、ExecutorBackend注册源码解密、Executor实例化内幕、Executor具体工作内幕。Master让Worker启动，启动了一个Executor所在的进程，在Sta

2017-05-28 10:14:25 920

原创第32课：Spark Worker原理和源码剖析解密：Worker工作流程图、Worker启动Driver源码解密、Worker启动Executor源码解密等

第32课：Spark Worker原理和源码剖析解密：Worker工作流程图、Worker启动Driver源码解密、Worker启动Executor源码解密等本节基于Spark 2.1版本从四个方面解密Spark Worker的运行原理和源码:1，Spark源码剖析 2，Worker启动Driver源码，Worker接收Master的指令启动Driver。3，Worker启动Executor源码4

2017-05-25 21:39:23 844

原创第26课： Spark Runtime（Driver、Masster、Worker、Executor）内幕解密

第26课： Spark Runtime（Driver、Masster、Worker、Executor）内幕解密坚持梦想，永不放弃！本节从Spark Runtime全局的角度看Spark具体怎么工作的，从一个作业的视角通过Driver、Masster、Worker、Executor等角色来透视Spark的Runtime。本节内容包括：1、再论Spark集群部署；2、Job提交解密；3、Job的生

2017-05-23 21:06:46 1167

原创第11课：彻底解密WordCount运行原理

第11课：彻底解密WordCount运行原理本节彻底解析wordcount运行原理：1，从数据流动视角解密WordCount，使用Spark作单词计数统计，数据到底是怎么流动的。2，从RDD依赖关系的视角解密WordCount。Spark中的一切操作都是RDD，后面的RDD对前面的RDD有依赖关系。3，DAG与血统Lineage的思考。接下来我们讲解运行wordcount程序。首先建立一个文本文

2017-05-22 07:32:07 1309

原创第25课 Spark Hash Shuffle源码解读与剖析

第25课：14 Spark Hash Shuffle源码解读与剖析Spark 2.1x 现在的版本已经没有Hash Shuffle的方式，那为什么我们还要讲解HashShuffle源码的内容呢？原因有3点：1，在现在的实际生产环境下，很多人在用Spark1.5.x，实际在使用Hash Shuffle的方式。2，Hash Shuffle的方式是后续Sort Shuffle的基础。3，在实际生产环境下

2017-05-21 07:49:27 1337

原创第24课：彻底解密Shuffle是如何成为Spark性能杀手的及调优点思考

第24课：彻底解密Shuffle是如何成为Spark性能杀手的及调优点思考人们对于Spark的第一印象是往往是Spark基于内存进行计算。但从实质上讲，Spark基于内存进行计算，也可以基于磁盘进行计算，或者基于第三方的存储空间进行计算。背后两层含义：1，Spark架构框架的实现模式是倾向于在内存中计算数据的，可以从Storage、算法、库的不同方式看出来。2，我们要计算数据的时候，数据就在内存中

2017-05-20 16:34:38 686

原创第23课：Spark旧版本中性能调优之HashShuffle剖析及调优(内含大数据Shuffle本质及其思考)

第23课：Spark旧版本中性能调优之HashShuffle剖析及调优(内含大数据Shuffle本质及其思考)大数据是分布式的，分布式绝大情况下涉及Shuffle。Spark内核引擎是树根，Spark Shuffle就相对于整个运行的树干，树枝就相当于在Mapper端怎么表现，在Reducer端怎么表现，内部的JVM又是怎么做。HashShuffle虽然在Spark新版本中已经不用了，HashSh

2017-05-20 08:16:42 584

原创第22课：Spark性能调优之使用更高性能算子及其源码剖析

第22课：Spark性能调优之使用更高性能算子及其源码剖析Spark性能调优之使用更高性能算子的重要性在于同样的情况下，如果使用更高性能的算子，从算子级别给我们带来更高的效率。Spark现在主推的是DataSet这个API接口，越来越多的算子可以基于DataSet去做，DataSet基于天然自带的优化引擎，理论上讲比RDD的性能更高，DataSet弱点是无法自定义很多功能。平时使用来讲，使用的最基

2017-05-19 22:07:14 1089

原创第20课：大数据性能调优的本质和Spark性能调优要点分析

第20课：大数据性能调优的本质和Spark性能调优要点分析我们谈大数据性能调优，到底在谈什么，它的本质是什么，以及 Spark 在性能调优部份的要点，这两点让在进入性能调优之前都是一个至关重要的问题，它的本质限制了我们调优到底要达到一个什么样的目标或者说我们是从什么本源上进行调优。我们先看一下Spark官网的性能优化指南（http://spark.apache.org/docs/latest/tu

2017-05-19 07:33:24 1044

原创第21课：Spark性能调优之系统资源使用原理和调优最佳实践

第20课：大数据性能调优的本质和Spark性能调优要点分析我们从Spark资源的角度讲解性能调优的原因：无论是算子调优、Shuffle、数据倾斜等实质上都涉及到资源的使用。我们从Spark官网（http://spark.apache.org/docs/latest/cluster-overview.html）看一下Spark运行架构图：图

2017-05-19 06:55:03 715

原创第35课：彻底解密Spark 2.1.X中Sort Shuffle 中TimSort排序源码具体实现

第35课：彻底解密Spark 2.1.X中Sort Shuffle 中TimSort排序源码具体实现Spark 2.1.X中Sort Shuffle 中TimSort排序: 1,从Spark 1.6.x开始,默认核心的Shuffle是Sort Shuffle，同学们可能有个印象Sort Shuffle要完成数据排序的，但这个印象是有问题的，例如写个最简单的WordCount程序，

2017-05-18 07:27:38 1371

原创 Spark Streaming 实战（2） kafka+zookeeper+spark streaming 的windows本地测试Demo

Spark Streaming 实战（2） kafka+zookeeper+spark streaming 的windows本地测试Demo

2017-05-16 11:14:52 3618

原创 Spark Streaming 实战（1）搭建kafka+zookeeper+spark streaming 的windows本地开发环境

搭建kafka+zookeeper+spark streaming 本地开发环境暂无kafka，zookpeer集群开发环境，先搭建本地的在线实时计算测试环境1，安装配置zookeeper本地开发环境：下载zookeeper，下载地址： http://zookeeper.apache.org/releases.html#download进入配置目录G:\1.BeiJingSpark\zooke

2017-05-16 09:12:11 3640 1

原创第36课：kaishi 彻底解密Spark 2.1.X中Sort Shuffle中Reducer端源码内幕

第36课：kaishi 彻底解密Spark 2.1.X中Sort Shuffle中Reducer端源码内幕本文根据家林大神系列课程编写 http://weibo.com/ilovepains 本课讲解Spark 2.1.X中Sort Shuffle中Reducer端的源码内幕，Spark是MapReduce思想的一种实现，相对于Hadoop的MapRedcue，Spark作业job根据算子的依赖关

2017-05-16 06:39:47 1029

原创第34课：彻底解密Spark 2.1.X中Shuffle 中SortShuffleWriter排序源码内幕解密

第34课：彻底解密Spark 2.1.X中Shuffle 中SortShuffleWriter排序源码内幕解密本文根据家林大神系列课程编写 http://weibo.com/ilovepainsSpark Shuffle一个至关重要的内容，我们的SortShuffle内部到底怎么排序的？这里的排序是从整个框架的角度讲，SortShuffle在不考虑业务排序的情况下是怎么进行排序的？SortShuf

2017-05-11 07:26:17 1382

原创第33课：彻底解密Spark 2.1.X中Shuffle 中Mapper端的源码实现

第33课：彻底解密Spark 2.1.X中Shuffle 中Mapper端的源码实现本文根据家林大神系列课程编写 http://weibo.com/ilovepainsSpark是MapReduce思想的实现之一，在一个作业中，会把不同的计算按照不同的依赖关系分成不同的Stage，前面的Stage是后面Stage的Mapper，构建的一个有向无环图。我们研究Shuffle，实际上要研究Mapper

2017-05-10 07:26:46 795

原创 Spark 生产开发环境搭建 Git + Maven + IDEA

Spark 生产开发环境搭建 Git + Maven + IDEA

2017-05-09 10:49:30 796

原创第32课：彻底解密Spark 2.1.X中Shuffle 下Task视角内存分配管理

第32课：彻底解密Spark 2.1.X中Shuffle 下Task视角内存分配管理Spark 2.1.X内存管理包含2种类型：统一内存管理 UnifiedMemoryManager、静态内存StaticMemoryManager。这两种内存的管理方式最终要落实到Task的运行。我们先从源码角度对Spark内存管理进行回顾，从Spark Task的视角解析Task运行内存管理源码。在Spark 2

2017-05-09 07:27:03 1382

原创第31课：彻底解密Spark 2.1.X中Shuffle中内存管理源码解密：StaticMemory和UnifiedMemory

第31课：彻底解密Spark 2.1.X中Shuffle中内存管理源码解密：StaticMemory和UnifiedMemory 大数据的事情只需关注2个平台：spark，tensorFlow（图像，深度学习）内存管理MemoryManager属于spark框架内部的，包含2种类型：1，统一内存管理 UnifiedMemoryManager 属于框架内部private[memory]2，静态内存

2017-05-07 20:30:47 1443

原创第30课：彻底解密Spark 2.1.X中Shuffle中JVM Unified Memory内幕详情：Spark Unified Memory的运行原理和机制是什么？Spark JVM最小配置是什么

第30课：彻底解密Spark 2.1.X中Shuffle中JVM Unified Memory内幕详情：Spark Unified Memory的运行原理和机制是什么？Spark JVM最小配置是什么？用户空间什么时候会出现OOM？Spark中的Broadcast到底是存储在什么空间的？ShuffleMapTask的使用的数据到底在什么地方？Spark Unified Memory的运行原理和机制

2017-05-07 06:51:32 1363

原创第148讲：Spark RDD中Transformation的combineByKey、reduceByKey详解

第148讲：Spark RDD中Transformation的combineByKey、reduceByKey详解我们看一下PairRDDFunctions.scala的reduceByKey：类似于Hadoop中combiner，reduceByKey在每一个mapper进行本地合并，合并以后才把结果发送给reduce。他调用的其实就是combineByKey。/** * Merge the

2017-05-06 08:54:31 1533

原创第29课：彻底解密Spark 1.6.X以前Shuffle中JVM内存使用及配置内幕详情：Spark到底能够缓存多少数据、Shuffle到底占用了多少数据、磁盘的数据远远比内存小却还是报告内存不足？

第29课：彻底解密Spark 1.6.X以前Shuffle中JVM内存使用及配置内幕详情：Spark到底能够缓存多少数据、Shuffle到底占用了多少数据、磁盘的数据远远比内存小却还是报告内存不足？1 JVM内存使用架构剖析2 Spark集群在1.6.x以前中JVM到底可以缓存多少数据？3 spark集群在1.6.x以前中shuffle JVM到底缓存多少数据？4 spark on yarn实际计

2017-05-05 21:30:53 1455

原创第28课：彻底解密Spark Sort-Based Shuffle排序具体实现内幕和源码详解

第28课：彻底解密Spark Sort-Based Shuffle排序具体实现内幕和源码详解本文根据家林大神系列课程编写http://weibo.com/ilovepains为什么讲解Sorted-Based shuffle？2方面的原因：一，可能有些朋友看到Sorted-Based Shuffle的时候，会有一个误解，认为Spark基于Sorted-Based Shuffle 它产出...

2017-05-05 06:56:22 5192

原创第27课：彻底解密Spark Shuffle令人费解的6大经典问题（课程内容全球独家）

第27课：彻底解密Spark Shuffle令人费解的6大经典问题（课程内容全球独家）Shuffle的第一大问题：什么时候进行shuffle的fetch操作？Shuffle具体在什么时候开始运行（是在一边Mapper的map操作同时进行reduce端的shuffle的reduce操作吗）？错误的观点：Spark是一遍Mapper一遍Shuffle，而Hadoop的MapReduce...

2017-05-04 20:57:59 1397 1

原创 IDEA spark 中scala的编译版本问题解决NoSuchMethodError （jvm ）

Spark IDEA集成环境开发时，pom文件新安装了一些jar包，没注意到其中scala的版本被替换了，运行一个测试程序提示这个：Exception in thread "main" java.lang.NoSuchMethodError: scala.Predef$.refArrayOps([Ljava/lang/Object;)Lscala/collection/mutable/ArrayO

2017-05-04 16:57:38 20463

原创第26课：电光石火间从根本上理解Spark中Sort-Based Shuffle产生的内幕及其tungsten-sort 背景解密

第26课：电光石火间从根本上理解Spark中Sort-Based Shuffle产生的内幕及其tungsten-sort 背景解密在历史的发展中，为什么 Spark 最终还是选择放弃了 HashShuffle 而使用了 Sorted-Based Shuffle，而且作为后起之秀的 Tungsten-based Shuffle 它到底在什么样的背景下产生的。Tungsten-Sort Shuffle

2017-05-04 06:58:22 1060

原创第226讲：Spark Shuffle Pluggable框架SortShuffle具体实现解析

第226讲：Spark Shuffle Pluggable框架SortShuffle具体实现解析 SortShuffle在进行ShuffleMapTask的时候，按照Key（具体的处理元素的key）相应的PartitionID进行sort，注意这个进行sort，很消耗性能，为了避免Hadoop Map reduce sort 的弊端，Spark的处理是对于属于同一个Partition的Key不进

2017-05-03 06:45:55 595

原创第225讲：Spark Shuffle Pluggable框架SortShuffle解析以及创建源码详解

第225讲：Spark Shuffle Pluggable框架SortShuffle解析以及创建源码详解引入SortShuffle的方式是为了解决问题，解决什么问题呢，这个问题就是Spark无法应对大规模集群和大规模任务的问题。SparkEnv创建 val shortShuffleMgrNames = Map( "sort" -> classOf[org.apache.spark

2017-05-02 20:37:15 632

原创第224讲：Spark Shuffle Pluggable框架ShuffleBlockManager解析

第224讲：Spark Shuffle Pluggable框架ShuffleBlockManager解析ShuffleBlockManager，1.6.0之后改成了ShuffleBlockResolver：具体读取shuffle数据，是一个trait。trait ShuffleBlockResolver { type ShuffleId = Int /** * Retrieve

2017-05-02 06:53:09 493

原创第223讲：Spark Shuffle Pluggable框架ShuffleReader解析

第223讲：Spark Shuffle Pluggable框架ShuffleReader解析ShuffleReader:具体实现Stage在读取上一个Stage结果的接口。在reduce任务中，读取mappers中的聚合数据。从上一个shuffleMapTask中读取想要的数据，读取的内容是Iterator，具体的读可以看它的子类。private[spark] trait ShuffleReade

2017-05-01 21:21:55 874

原创第222讲：Spark Shuffle Pluggable框架ShuffleWriter解析

第222讲：Spark Shuffle Pluggable框架ShuffleWriter解析ShuffleWriter是ShuffleMapTask将shuffle数据写入本地的接口。不同的shuffle有不同的实现。在ShuffleMapTask内部中获取shuffleWtriter实例，将数据记录写入shuffle系统 private[spark] abstract class Shuff

2017-05-01 07:17:11 492