spark
文章平均质量分 93
spark源码分享
Mr_JieLQ
spark开发
展开
-
Spark Storage之ExternalBlockStore
介绍Spark的ExternalBlockStore相关部分原创 2017-09-12 16:55:35 · 861 阅读 · 0 评论 -
Spark Storage之DiskStore
介绍Spark对于磁盘文件的管理及读写原创 2017-09-12 11:24:10 · 1386 阅读 · 0 评论 -
Spark Storage之MemoryStore
介绍MemoryStore的实现及几个重要方法原创 2017-08-20 23:44:24 · 4122 阅读 · 0 评论 -
Spark Shuffle之Tungsten-Sort
介绍tungsten-sort原创 2017-05-31 18:27:25 · 5840 阅读 · 0 评论 -
Spark Shuffle之SortShuffleWriter
介绍SortShuffleWriter的实现原创 2017-06-05 00:06:06 · 7690 阅读 · 0 评论 -
Spark Broadcast概述
介绍BROADCAST的使用场景,及几种实现思路。原创 2017-07-17 00:18:06 · 6438 阅读 · 0 评论 -
Spark Broadcast之TorrentBroadcast
介绍TorrentBroadcast的实现思路原创 2017-07-23 23:28:12 · 1492 阅读 · 0 评论 -
Spark Storage概述
介绍Storage模块的设计思路及BlockManager的概要原创 2017-08-04 21:31:36 · 2479 阅读 · 0 评论 -
Spark调优之Cloudera博客(Part 1)
翻译Cloudera调优方面的博客翻译 2017-06-12 00:14:00 · 2105 阅读 · 0 评论 -
Spark调优之Cloudera博客(Part 2)
Cloudera关于Spark调优方面的第二篇博客翻译 2017-06-22 23:58:24 · 5743 阅读 · 0 评论 -
Spark调优之Tuning Spark(Part 1)
翻译Spark官方调优指南Tuning Spark原创 2017-06-30 17:24:08 · 3208 阅读 · 0 评论 -
Spark调优之Tuning Spark(Part 2)
翻译Spark官方调优指南Tuning Spark原创 2017-07-05 22:03:44 · 1715 阅读 · 0 评论 -
Spark Shuffle之Sort Shuffle
介绍Spark Sort Shuffle原创 2017-05-27 23:13:00 · 17434 阅读 · 0 评论 -
Spark Shuffle之Hash Shuffle
介绍Spark Hash Shuffle原创 2017-05-21 23:53:41 · 10799 阅读 · 1 评论 -
Spark Shuffle概述
介绍Spark Shuffle的概念及三种实现,hash shuffle、sort shuffle、tungsten-sort shuffle。原创 2017-05-19 14:28:05 · 6363 阅读 · 1 评论 -
Spark 内存管理之Tungsten
介绍Tungsten中内存管理相关部分原创 2017-05-11 23:49:32 · 15492 阅读 · 0 评论 -
Spark 内存管理之BytesToBytesMap
介绍BytesToBytesMap原创 2017-05-15 23:26:13 · 6569 阅读 · 0 评论 -
Spark 内存管理之UnifiedMemoryManager
介绍统一内存管理器UnifiedMemoryManager原创 2017-05-07 23:53:37 · 4894 阅读 · 0 评论 -
Spark 内存管理之StaticMemoryManager
分析静态资源管理器StaticMemoryManager原创 2017-05-03 21:28:35 · 17456 阅读 · 2 评论 -
Spark 内存管理概述
介绍Spark内存管理中涉及到的相关概念原创 2017-04-30 21:52:44 · 16265 阅读 · 0 评论 -
Spark DAG之SubmitTask
介绍Stage转为Task,提交给Executor运行的过程原创 2017-04-26 10:33:21 · 3424 阅读 · 0 评论 -
Spark DAG之SubmitStage
介绍提交Stage的流程原创 2017-04-24 23:55:46 · 9373 阅读 · 0 评论 -
Spark DAG之划分Stage
介绍Stage的定义及DAGScheduler如何划分Stage原创 2017-04-22 13:55:56 · 19798 阅读 · 0 评论 -
Spark Streaming
概要许多大数据应用要处理实时数据(real time),然而现有开源组件大部分是low-level的,开发者需要关心数据一致性和错误恢复(fault recovery)。即使部分组件提供了错误恢复,也要求备份或者较长的恢复时间。Spark Streaming提出了新的模型: D-Streams(discretized streams),提供high-level API,强一致性和错误恢复,D-St原创 2016-11-25 11:25:48 · 5522 阅读 · 1 评论 -
Spark RDD
RDD是为了处理迭代算法和交互式数据发掘工具应运而生的,keep 数据在内存,显著提升性能.翻译 2016-11-23 20:05:18 · 5950 阅读 · 0 评论 -
Spark RDD之Partition
概要Partition是Spark RDD一个重要组成,一份待处理的原始数据会被按照相应的逻辑(例如jdbc和hdfs的split逻辑)切分成n份,每份数据对应到RDD中的一个partition,Partition的数量决定了task的数量,影响着程序的并行度,所以理解Partition是了解spark背后运行原理的第一步。原创 2016-12-13 16:30:35 · 32326 阅读 · 14 评论 -
Spark RDD之Dependency
概要上一篇我们介绍了代表RDD组成的三大物理结构(Dependency、Partition、Partitioner)之一的Partition,这篇接着介绍Dependency。Partition记录的是数据split的逻辑,Dependency记录的是transformation操作过程中Partition的演化,即这个Partition从哪来到哪去的过程。原创 2017-01-10 11:29:48 · 5481 阅读 · 4 评论 -
RangePartitioner
概要RangePartitioner原理原创 2017-01-12 18:24:09 · 7049 阅读 · 4 评论 -
Spark RDD之Partitioner
概要Spark RDD主要由Dependency、Partition、Partitioner组成,这篇介绍最后一部分Partitioner。Partition记录了数据split的逻辑,Dependency记录的是transformation操作过程中Partition的演化,Partitioner是shuffle过程中key重分区时的策略,即计算key决定k-v属于哪个分区。原创 2017-01-22 10:44:06 · 8992 阅读 · 2 评论 -
SparkContext初始化过程
SparkContext是程序执行的入口,一个SparkContext代表一个应用,深入理解spark运行时机制,首先要了解SparkContext初始化过程。原创 2017-02-08 15:53:14 · 11402 阅读 · 2 评论 -
Spark RPC概述
概要Spark RPC被deploy、scheduler、shuffle、storage等多个模块使用,是深入学习这些模块的前提。原创 2017-02-19 22:02:05 · 4310 阅读 · 4 评论 -
Spark RPC之Master实现
上篇文章Spark RPC概述介绍了Spark RPC的实现思路,有了上述基础,我们看一个具体例子,就是standalone模式下的Master和Worker,主要关注Worker如何向Master注册信息以及保持心跳。原创 2017-02-23 13:49:17 · 4081 阅读 · 1 评论 -
Spark RPC之Worker实现
上一篇文章Spark RPC之Master实现介绍了standalone模式下Master端的实现,接着我们看下Worker端的实现,以及如何向Master注册及发送心跳。原创 2017-02-26 14:14:50 · 2551 阅读 · 2 评论 -
Spark RPC之Netty启动
Spark RPC概述中我们介绍了Spark RPC接口的设计和使用,并且spark1.6版本中RPC底层实现使用netty,并在后续2.x版本中彻底移除了akka,因此,我们看下Spark RPC内部如何使用netty的。原创 2017-03-01 17:56:54 · 9499 阅读 · 3 评论 -
Spark RPC之RpcRequest请求处理流程
主要介绍处理RpcRequest请求的两种情形原创 2017-03-08 16:29:24 · 5107 阅读 · 1 评论 -
Spark RPC之RpcResponse处理
完整介绍了Spark RPC请求的流程,及RpcCallContext、RpcResponseCallback在其中的作用。原创 2017-03-14 14:48:25 · 7127 阅读 · 1 评论 -
Spark RPC之RpcEnvFileServer
spark运行时executor需要远程下载driver上的jar或文件,对应的内部实现为RpcEnvFileServer,RpcEnvFileServer的子类有NettyStreamManager、HttpBasedFileServer,底层分别由netty、jetty实现。原创 2017-03-22 00:36:56 · 6570 阅读 · 2 评论 -
Spark 任务调度概述
概要主要介绍Standalone部署模式下,从命令行执行spark-submit命令提交任务开始,到最后计算结果返回driver的完整过程,主要涉及到spark-core中deploy、executor和scheduler部分,但DAGScheduler相关的部分涉及到内容较多,这里不作介绍,留作后面详细分析。Spark Doc中的介绍Spark官方文档中,Cluster Mode Overvie原创 2017-03-31 00:04:27 · 16520 阅读 · 7 评论 -
Spark RPC之RpcEndpointVerifier
RpcEndpointVerifier的作用是,当RpcEndpointRef访问对应的RpcEndpoint前,判断RpcEndpoint是否存在原创 2017-03-26 21:52:52 · 3715 阅读 · 2 评论 -
Spark 任务调度之Submit Driver
介绍在Standalone模式下,从命令行使用spark-submit提交任务开始,到将Driver提交到Master的过程。原创 2017-04-01 15:50:38 · 8232 阅读 · 1 评论