- 博客(6)
- 资源 (5)
- 收藏
- 关注
原创 大数据:Spark Shuffle(一)ShuffleWrite:Executor如何将Shuffle的结果进行归并写到数据文件中去
1. 前序关于Executor如何运行算子,请参考前面博文:大数据:Spark Core(四)用LogQuery的例子来说明Executor是如何运算RDD的算子,当Executor进行reduce运算的时候,生成运算结果的临时Shuffle,并保存在磁盘中,被最后的Action算子调用,而这个阶段就是在ShuffleMapTask里执行的。
2017-04-27 11:44:32 7511 1
原创 大数据:Spark Core(四)用LogQuery的例子来说明Executor是如何运算RDD的算子
1. 究竟是怎么运行的?很多的博客里大量的讲了什么是RDD, Dependency, Shuffle... 但是究竟那些Executor是怎么运行你提交的代码段的?下面是一个日志分析的例子,来自Spark的example def main(args: Array[String]) { val sparkConf = new SparkConf().setAppName("Log Quer
2017-04-22 23:15:19 3416
原创 大数据:Spark Core(三)Executor上是如何launch task
1. 启动任务在前面一篇博客中(http://blog.csdn.net/raintungli/article/details/70168241#t9)介绍了Driver是如何调动、启动任务的,Driver向Executor发送了LaunchTask的消息,Executor接收到了LaunchTask的消息后,进行了任务的启动,在CoarseGrainedExecutorBackend.scala
2017-04-19 17:48:23 4354 1
原创 大数据:Spark Core(二)Driver上的Task的生成、分配、调度
1. 什么是Task?在前面的章节里描述过几个角色,Driver(Client),Master,Worker(Executor),Driver会提交Application到Master进行Worker上的Executor上的调度,显然这些都不是Task.Spark上的几个关系可以这样理解:Application: Application是Driver在构建SparkContent的上下文的时候创建的,就像申报员,现在要构建一个能完成任务的集群,需要申报的是这次需要多少个Executor(可以简单理解
2017-04-14 09:21:46 10726
原创 大数据:Spark Core (一) 什么是RDD的Transformation和Actions以及Dependency?
Spark的RDDRDD(Resilient Distributed Datasets),弹性分布式数据集,是对分布式数据集的一种抽象。RDD所具备5个主要特性:一组分区计算每一个数据分片的函数RDD上的一组依赖对于Key Value 对的RDD,会有一个Partitioner, 这是数据的分割器一组Preferred Location信息上图是一个简单的CoGroupedRDD满足了RDD 5个
2017-04-07 17:21:36 3662
原创 大数据:Spark Standalone 集群调度(三)多Master节点的可用性
1. Master 单节点可用性Master节点在Spark中所承载的作用是分配Application到Worker节点,维护Worker节点,Driver,Application的状态。在Spark中,Master本身也提供了基于硬盘的单节点的可用性,也就是可以直接通过重启Master,Master通过读取硬盘里保存的状态,进行单节点的恢复。
2017-04-01 09:37:53 9862
jdk1.6.23 libsaproc.so linux 下amd64架构
2012-02-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人