- 博客(10)
- 资源 (5)
- 收藏
- 关注
原创 Spark源码阅读笔记之Broadcast(三)
Spark源码阅读笔记之Broadcast:Broadcast的Torrent传输机制通过TorrentBroadcastFactory和TorrentBroadcast来实现的。
2015-08-13 14:38:37 1257
原创 Spark源码阅读笔记之Broadcast(二)
Spark源码阅读笔记之Broadcast:Http的传输机制是在Driver中启动Http服务,然后将需要传输的变量存储为Http服务根目录下的一个文件,当Executor中需要使用时便向Http服务请求,下载该文件,然后读取。这种机制下,所有Executor都需要向Driver请求下载,Driver的网络通信会成为瓶颈。
2015-08-13 14:29:10 1111
原创 Spark源码阅读笔记之Broadcast(一)
Spark源码阅读笔记之Broadcast:Spark会序列化在各个任务上使用到的变量,然后传递到Executor中,由于Executor中得到的只是变量的拷贝,因此对变量的改变只在该Executor有效。序列化后的任务的大小是有限制的(由spark.akka.frameSize决定,值为其减去200K,默认为10M-200K),超出该限制的任务会被抛弃。因此,对于需要共享比较大的数据时,需要使用Broadcast。
2015-08-13 14:26:05 1918
原创 Spark源码阅读笔记之MetadataCleaner
Spark源码阅读笔记之MetadataCleaner:MetadataCleaner运行定时任务周期性的清理元数据(metadata)。
2015-08-10 15:16:03 1635
原创 Spark源码阅读笔记之BlockObjectWriter
Spark源码阅读笔记之BlockObjectWriter:Spark中Hash Shuffle阶段能将多个map的结果合并到一个文件,以减少文件的数量,主要依赖于BlockObjectWriter 。BlockObjectWriter是一个接口,用来直接操作Block对应的存储容器,可以直接向存储容器中添加数据,从而实现向相应的Block中添加数据的操作。
2015-08-01 23:30:09 1129
原创 Spark源码阅读笔记之DiskStore
Spark源码阅读笔记之DiskStore:DiskStore通过DiskBlockManager来实现Block和相应磁盘文件的映射关系,从而将Block存储到磁盘的文件中。
2015-07-30 11:07:30 1298
原创 Spark源码阅读笔记之MemoryStore
BlockManager底层通过BlockStore来对数据进行实际的存储。BlockStore是一个抽象类,有三种实现:DiskStore(磁盘级别的持久化)、MemoryStore(内存级别的持久化)和TachyonStore(Tachyon内存分布式文件系统级别的持久化)。MemoryStore以反序列化后的数组或者序列化后的字节缓存(ByteBuffer)形式将Block存储到内存。
2015-07-27 10:26:11 2145
原创 Spark源码阅读笔记之BlockStore
Spark源码阅读笔记之BlockStore:BlockManager底层通过BlockStore来对数据进行实际的存储。BlockStore是一个抽象类,有三种实现:DiskStore(磁盘级别的持久化)、MemoryStore(内存级别的持久化)和TachyonStore(Tachyon内存分布式文件系统级的持久化)。
2015-07-24 11:40:57 587
原创 Spark源码阅读笔记之任务调度(一)
Spark源码阅读笔记之任务调度:应用(Application)、作业(Job)、阶段(Stage)、任务(Task)。用户写的spark程序就是一个应用,应用可以提交到集群(yarn、messos或spark原生集群)运行,一个spark应用运行期间可以执行多个spark作业,作业被分割为多个阶段,每个阶段是完成相同功能的任务的集合。
2015-07-09 14:24:23 1248
原创 Spark源码阅读笔记(RDD)(一)
Spark源码阅读笔记(RDD)(一)RDD(Resilient Distributed Dataset,弹性分布式数据集)是spark最基本的抽象,本质上是一个不可变的集合。该集合被划分为不同的分区,分区是存取的基本单元,被存储在不同机器的内存或磁盘中,作用在RDD上的函数可以在不同的分区上并行计算。
2015-07-05 14:36:55 844
机器学习(中文版)
2013-03-15
自然语言处理
2013-03-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人