2017年04月_raintungli

12月 09月 08月 07月 06月 05月 04月 03月 02月

原创大数据：Spark Shuffle（一）ShuffleWrite:Executor如何将Shuffle的结果进行归并写到数据文件中去

1. 前序关于Executor如何运行算子，请参考前面博文：大数据：Spark Core（四）用LogQuery的例子来说明Executor是如何运算RDD的算子，当Executor进行reduce运算的时候，生成运算结果的临时Shuffle，并保存在磁盘中，被最后的Action算子调用，而这个阶段就是在ShuffleMapTask里执行的。

2017-04-27 11:44:32 7511 1

原创大数据：Spark Core（四）用LogQuery的例子来说明Executor是如何运算RDD的算子

1. 究竟是怎么运行的？很多的博客里大量的讲了什么是RDD, Dependency, Shuffle... 但是究竟那些Executor是怎么运行你提交的代码段的？下面是一个日志分析的例子，来自Spark的example def main(args: Array[String]) { val sparkConf = new SparkConf().setAppName("Log Quer

2017-04-22 23:15:19 3416

原创大数据：Spark Core（三）Executor上是如何launch task

1. 启动任务在前面一篇博客中（http://blog.csdn.net/raintungli/article/details/70168241#t9）介绍了Driver是如何调动、启动任务的，Driver向Executor发送了LaunchTask的消息，Executor接收到了LaunchTask的消息后，进行了任务的启动，在CoarseGrainedExecutorBackend.scala

2017-04-19 17:48:23 4354 1

原创大数据：Spark Core（二）Driver上的Task的生成、分配、调度

1. 什么是Task?在前面的章节里描述过几个角色，Driver(Client),Master,Worker(Executor)，Driver会提交Application到Master进行Worker上的Executor上的调度，显然这些都不是Task.Spark上的几个关系可以这样理解：Application: Application是Driver在构建SparkContent的上下文的时候创建的，就像申报员，现在要构建一个能完成任务的集群，需要申报的是这次需要多少个Executor(可以简单理解

2017-04-14 09:21:46 10726

原创大数据：Spark Core (一) 什么是RDD的Transformation和Actions以及Dependency?

Spark的RDDRDD(Resilient Distributed Datasets),弹性分布式数据集，是对分布式数据集的一种抽象。RDD所具备5个主要特性：一组分区计算每一个数据分片的函数RDD上的一组依赖对于Key Value 对的RDD，会有一个Partitioner, 这是数据的分割器一组Preferred Location信息上图是一个简单的CoGroupedRDD满足了RDD 5个

2017-04-07 17:21:36 3662

原创大数据：Spark Standalone 集群调度（三）多Master节点的可用性

1. Master 单节点可用性Master节点在Spark中所承载的作用是分配Application到Worker节点，维护Worker节点，Driver，Application的状态。在Spark中，Master本身也提供了基于硬盘的单节点的可用性，也就是可以直接通过重启Master，Master通过读取硬盘里保存的状态，进行单节点的恢复。

2017-04-01 09:37:53 9862

jdk1.6.23 libsaproc.so linux 下amd64架构

详细请看： Java 工具（jmap,jstack）在linux上的源码分析(五) -F 参数的bug的解决lib （http://blog.csdn.net/raintungli/article/details/7245709）自己编译的，测试能够通过

2012-02-15

Linux C 编程一站式学习

介绍在linux上c程序开发适合入门学习

2011-03-28

开源技术选型手册 web2.0 for java

最新的比较流行的开源软件使用手册,web 2.0全面介绍

2009-04-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 大数据：Spark Shuffle（一）ShuffleWrite:Executor如何将Shuffle的结果进行归并写到数据文件中去

原创 大数据：Spark Core（四）用LogQuery的例子来说明Executor是如何运算RDD的算子

原创 大数据：Spark Core（三）Executor上是如何launch task

原创 大数据：Spark Core（二）Driver上的Task的生成、分配、调度

原创 大数据：Spark Core (一) 什么是RDD的Transformation和Actions以及Dependency?

原创 大数据：Spark Standalone 集群调度（三）多Master节点的可用性