spark-core源码
文章平均质量分 92
Mr_JieLQ
spark开发
展开
-
Spark Storage之ExternalBlockStore
介绍Spark的ExternalBlockStore相关部分原创 2017-09-12 16:55:35 · 873 阅读 · 0 评论 -
Spark Shuffle概述
介绍Spark Shuffle的概念及三种实现,hash shuffle、sort shuffle、tungsten-sort shuffle。原创 2017-05-19 14:28:05 · 6377 阅读 · 1 评论 -
Spark Shuffle之SortShuffleWriter
介绍SortShuffleWriter的实现原创 2017-06-05 00:06:06 · 7705 阅读 · 0 评论 -
Spark DAG概述
介绍DAGScheduler的作用,以及Stage、Task等概念,并举了一个具体例子原创 2017-04-18 17:02:03 · 20869 阅读 · 4 评论 -
Spark DAG之SubmitTask
介绍Stage转为Task,提交给Executor运行的过程原创 2017-04-26 10:33:21 · 3438 阅读 · 0 评论 -
RangePartitioner
概要RangePartitioner原理原创 2017-01-12 18:24:09 · 7082 阅读 · 4 评论 -
Spark 内存管理之BytesToBytesMap
介绍BytesToBytesMap原创 2017-05-15 23:26:13 · 6595 阅读 · 0 评论 -
Spark 内存管理之Tungsten
介绍Tungsten中内存管理相关部分原创 2017-05-11 23:49:32 · 15516 阅读 · 0 评论 -
Spark 内存管理之UnifiedMemoryManager
介绍统一内存管理器UnifiedMemoryManager原创 2017-05-07 23:53:37 · 4919 阅读 · 0 评论 -
Spark Shuffle之Sort Shuffle
介绍Spark Sort Shuffle原创 2017-05-27 23:13:00 · 17456 阅读 · 0 评论 -
Spark Shuffle之Tungsten-Sort
介绍tungsten-sort原创 2017-05-31 18:27:25 · 5869 阅读 · 0 评论 -
Spark Shuffle之Hash Shuffle
介绍Spark Hash Shuffle原创 2017-05-21 23:53:41 · 10819 阅读 · 1 评论 -
Spark Storage之DiskStore
介绍Spark对于磁盘文件的管理及读写原创 2017-09-12 11:24:10 · 1402 阅读 · 0 评论 -
Spark RPC之RpcEnvFileServer
spark运行时executor需要远程下载driver上的jar或文件,对应的内部实现为RpcEnvFileServer,RpcEnvFileServer的子类有NettyStreamManager、HttpBasedFileServer,底层分别由netty、jetty实现。原创 2017-03-22 00:36:56 · 6580 阅读 · 2 评论 -
Spark Storage之MemoryStore
介绍MemoryStore的实现及几个重要方法原创 2017-08-20 23:44:24 · 4139 阅读 · 0 评论 -
Spark Storage概述
介绍Storage模块的设计思路及BlockManager的概要原创 2017-08-04 21:31:36 · 2490 阅读 · 0 评论 -
Spark Broadcast之TorrentBroadcast
介绍TorrentBroadcast的实现思路原创 2017-07-23 23:28:12 · 1511 阅读 · 0 评论 -
Spark Broadcast概述
介绍BROADCAST的使用场景,及几种实现思路。原创 2017-07-17 00:18:06 · 6460 阅读 · 0 评论 -
Spark 内存管理概述
介绍Spark内存管理中涉及到的相关概念原创 2017-04-30 21:52:44 · 16276 阅读 · 0 评论 -
Spark 内存管理之StaticMemoryManager
分析静态资源管理器StaticMemoryManager原创 2017-05-03 21:28:35 · 17471 阅读 · 2 评论 -
Spark DAG之SubmitStage
介绍提交Stage的流程原创 2017-04-24 23:55:46 · 9383 阅读 · 0 评论 -
Spark DAG之划分Stage
介绍Stage的定义及DAGScheduler如何划分Stage原创 2017-04-22 13:55:56 · 19817 阅读 · 0 评论 -
Spark RDD之Dependency
概要上一篇我们介绍了代表RDD组成的三大物理结构(Dependency、Partition、Partitioner)之一的Partition,这篇接着介绍Dependency。Partition记录的是数据split的逻辑,Dependency记录的是transformation操作过程中Partition的演化,即这个Partition从哪来到哪去的过程。原创 2017-01-10 11:29:48 · 5501 阅读 · 4 评论 -
Spark 任务调度之创建Executor
CoarseGrainedExecutorBackend创建Executor对象的过程原创 2017-04-10 14:25:06 · 3858 阅读 · 0 评论 -
Spark RPC之RpcResponse处理
完整介绍了Spark RPC请求的流程,及RpcCallContext、RpcResponseCallback在其中的作用。原创 2017-03-14 14:48:25 · 7154 阅读 · 1 评论 -
Spark RPC之Master实现
上篇文章Spark RPC概述介绍了Spark RPC的实现思路,有了上述基础,我们看一个具体例子,就是standalone模式下的Master和Worker,主要关注Worker如何向Master注册信息以及保持心跳。原创 2017-02-23 13:49:17 · 4095 阅读 · 1 评论 -
Spark 任务调度之启动CoarseGrainedExecutorBackend
介绍CoarseGrainedExecutorBackend的作用及启动流程。原创 2017-04-09 00:53:54 · 19867 阅读 · 0 评论 -
Spark 任务调度之Launch Executor
Master launchExecutor流程原创 2017-04-06 23:51:49 · 8238 阅读 · 1 评论 -
Spark RPC之Worker实现
上一篇文章Spark RPC之Master实现介绍了standalone模式下Master端的实现,接着我们看下Worker端的实现,以及如何向Master注册及发送心跳。原创 2017-02-26 14:14:50 · 2563 阅读 · 2 评论 -
Spark RPC概述
概要Spark RPC被deploy、scheduler、shuffle、storage等多个模块使用,是深入学习这些模块的前提。原创 2017-02-19 22:02:05 · 4321 阅读 · 4 评论 -
Spark RPC之RpcRequest请求处理流程
主要介绍处理RpcRequest请求的两种情形原创 2017-03-08 16:29:24 · 5121 阅读 · 1 评论 -
Spark RPC之Netty启动
Spark RPC概述中我们介绍了Spark RPC接口的设计和使用,并且spark1.6版本中RPC底层实现使用netty,并在后续2.x版本中彻底移除了akka,因此,我们看下Spark RPC内部如何使用netty的。原创 2017-03-01 17:56:54 · 9519 阅读 · 3 评论 -
Spark 任务调度之Submit Driver
介绍在Standalone模式下,从命令行使用spark-submit提交任务开始,到将Driver提交到Master的过程。原创 2017-04-01 15:50:38 · 8260 阅读 · 1 评论 -
Spark RDD之Partition
概要Partition是Spark RDD一个重要组成,一份待处理的原始数据会被按照相应的逻辑(例如jdbc和hdfs的split逻辑)切分成n份,每份数据对应到RDD中的一个partition,Partition的数量决定了task的数量,影响着程序的并行度,所以理解Partition是了解spark背后运行原理的第一步。原创 2016-12-13 16:30:35 · 32552 阅读 · 14 评论 -
Spark DAG之SubmitJob
介绍DAGScheduler使用EventLoop异步处理Job的流程原创 2017-04-20 17:44:08 · 5793 阅读 · 2 评论 -
Spark 任务调度之Executor执行task并返回结果
介绍Executor执行task并返回result给Driver。原创 2017-04-14 11:44:58 · 29983 阅读 · 0 评论 -
Spark 任务调度之Register App
概要本篇博客是Spark 任务调度概述详细流程中的第三部分,介绍Driver向Master注册APP信息的流程原创 2017-04-04 23:46:29 · 4014 阅读 · 0 评论 -
Spark 任务调度概述
概要主要介绍Standalone部署模式下,从命令行执行spark-submit命令提交任务开始,到最后计算结果返回driver的完整过程,主要涉及到spark-core中deploy、executor和scheduler部分,但DAGScheduler相关的部分涉及到内容较多,这里不作介绍,留作后面详细分析。Spark Doc中的介绍Spark官方文档中,Cluster Mode Overvie原创 2017-03-31 00:04:27 · 16537 阅读 · 7 评论 -
Spark RPC之RpcEndpointVerifier
RpcEndpointVerifier的作用是,当RpcEndpointRef访问对应的RpcEndpoint前,判断RpcEndpoint是否存在原创 2017-03-26 21:52:52 · 3730 阅读 · 2 评论 -
Spark 任务调度之Driver send Task
介绍Driver发送task到Executor的过程。原创 2017-04-12 15:19:57 · 11004 阅读 · 1 评论