spark源码
danlial
java 大数据 人工智能 区块链
展开
-
spark2.2.0源码阅读---spark core包 --- rpc模块
1、本文目标以及其它说明: 本文或者本次系列主要是弄清楚spark.2.2.0版本中,spark core 包下rpc通信情况。从源代码上面看到,底层通信是用的netty,因为本系列以及本文是专项学习spark,故netty只会涉及到不会去讲解。在读源码前考虑到spark的体系结构有spark core / spark sql / spark streaming / spark ma...原创 2018-05-18 15:27:28 · 856 阅读 · 0 评论 -
spark2.2.0源码阅读---spark core包 --- network
1、本文目标以及其它说明: 本文主要是介绍network包下面的类2、network包下面的数据结构说明 trait BlockDataManager { //主要干3件事情 1 、通过blockid将块存储在本地 2、通过blockid将块从本地取出来。3、释放1/2步获取的锁private[spark]abstract class BlockTransferService exte...原创 2018-05-24 16:42:56 · 180 阅读 · 0 评论 -
spark2.2.0源码阅读---spark core包 --- launcher/memory包
1、本文目标以及其它说明: 本文主要是介绍launcher/memory两个包的数据结构2、launcher包下面的数据结构说明 private[spark] abstract class LauncherBackend {用来和启动服务器进行对话的。会创建BackendConnection对象,立面又封装了Socket,Socket有能够获取输入输出流private[spark] c...原创 2018-05-24 14:14:54 · 620 阅读 · 1 评论 -
spark2.2.0源码阅读---spark core包 --- storage
1、本文目标以及其它说明: 本文主要是介绍storage包下面的类2、storage包下面的数据结构说明sealed abstract class BlockId { 表示的是数据块的标识。具体子类有rddblockid / shuffle / broadcast / task / stream / temlocal/ temshuffle 等等private[storage] class ...原创 2018-05-30 17:29:42 · 302 阅读 · 0 评论 -
spark2.2.0源码阅读---spark core包 --- executor
1、本文目标以及其它说明: 2、executor包下面的数据结构说明 private[spark] trait ExecutorBackend { def statusUpdate(taskId: Long, state: TaskState, data: ByteBuffer): Unit} ...原创 2018-05-23 18:23:06 · 143 阅读 · 0 评论 -
spark2.2.0源码阅读---spark core包 --- broadcast
1、本文目标以及其它说明: 本文主要是介绍广播变量包下面的类2、broadcast包下面的数据结构说明 abstract class Broadcast[T: ClassTag](val id: Long) extends Serializable with Logging {本类主要表达的是广播变量 1、本广播变量不可改变,因为要发送到集群要用到这个值得节点上。2、作为一...原创 2018-05-23 11:31:02 · 126 阅读 · 0 评论 -
spark2.2.0源码阅读---spark core包 --- shuffle
1、本文目标以及其它说明: 本文主要是介绍shuffle包下面的类2、shuffle包下面的数据结构说明private[spark] class BaseShuffleHandle[K, V, C]( shuffleId: Int, val numMaps: Int, val dependency: ShuffleDependency[K, V, C]) exte...原创 2018-05-25 18:13:08 · 336 阅读 · 0 评论 -
spark2.2.0源码阅读---spark core包 --- security/serializer/status/io/input/metrics/mapred/internal
1、本文目标以及其它说明: 因为这几个包目标明确,类也不多,所以全部弄在一起研究。这里不会所有的数据结构都会讲到,主要是掌握重点。 security包:2、security包下面的数据结构说明...原创 2018-05-21 17:53:22 · 201 阅读 · 0 评论 -
spark2.2.0源码阅读---spark core包 --- partial/rdd
1、本文目标以及其它说明: 本文主要是介绍partial、rdd包下面的类2、partial包下面的数据结构说明private[spark] trait ApproximateEvaluator[U, R] { def merge(outputId: Int, taskResult: U): Unit def currentResult(): R}这接口两个方法主要是用来逐渐地合并...原创 2018-05-25 14:48:48 · 285 阅读 · 0 评论