- 博客(13)
- 资源 (31)
- 收藏
- 关注
原创 eclipse中配置python以及numpy库
本文描述的是python2.7,以及对应版本的numpy的安装。1.首先配置eclipse的python环境(1)配置pydev一是在eclipse里面搜索自动下载,但是这种方法容易被墙,安装不了。二是下载PyDev 2.7.1.zip,然后解压放到eclipse的dropins下,重启eclipse,新建工程出现pydev工程即可使用。下载地址:(2)配置python编译
2016-02-29 00:53:23 4746 1
原创 spark源码学习(八)--- executor启动task分析
本文基于spark1.6。上一篇文章提到TaskScheduler将task与executor分配好以后,交给executor来运行task,本文分析executor运行task。首先,在收到消息后,executor向driver注册,这部分的注册是由CoarseGrainedExecutorBackend而不是executor类来完成的。首先来看该类的初始化: override def
2016-02-21 13:05:49 1952
原创 spark源码学习(七)--- TaskScheduler源码分析
上一篇文章中,当程序执行到submitMissingTask的时候,会调用taskScheduler.submitTasks(new TaskSet(tasks.toArray, stage.id, stage.latestInfo.attemptId, jobId, properties))这个方法,其中的tasks是一个seq集合,每个partition会创建一个Task(ShuffleMap
2016-02-20 23:18:57 550
原创 spark源码学习(六)--- DAGScheduler中的task的划分
前面的文章中,当执行到submitstage的方法中,会调用到submitMissingTasks(stage, jobId.get) 这个方法。 private def submitMissingTasks(stage: Stage, jobId: Int) { logDebug("submitMissingTasks(" + stage + ")") // Get ou
2016-02-20 18:25:45 665
原创 spark源码学习(五)--- DAGScheduler中的stage的划分
上一篇文章中,当sparkContext初始化完成,并且worker也反向注册回来之后,程序代码开始运行,当遇到一个action操作的时候,该action函数会调用runjob函数,runjob最周会调用到DAGScheduler。本文将分析下面的DAGScheduler将一个job划分成若干个stage,每个stage又会分成若干个task,对与每个partition都会启动一个task,每个t
2016-02-20 15:56:19 1559
原创 spark源码学习(四)---job执行分析
在sparkRDD操作中,分为Transformation和action,Transformation是lazy操作,不会触发job,作业里的每个案出庭操作都会触发一个job,下面分析spark 从读取到计算的完整操作过程。在spark任务的代码里,在执行初始化sparkContext后,sparkContext调用textFile读取hadoop里的文件,下面分析读取过程: def t
2016-02-12 12:40:01 674
原创 spark源码学习(三)---worker源码分析-worker启动driver、executor分析
本文根据spark1.6源码。worker位于org.apache.spark.deploy.worker包下,本文分析worker对driver和executor的启动过程。前文分析中,当schedule方法会调用master的launchDriver方法以便启动driver: private def schedule(): Unit = { //如果当前的master处于st
2016-02-11 12:42:06 996
原创 spark源码学习(二)---Master源码分析(3)-master对driver、executor的调度
本文根据spark1.6源码。自己学习总结,错误之处请指正。schedule方法是资源调度的一个重要方法,当一个APp加入内存或者集群可用的资源发生变化的时候,就会调用该方法。该调度方法主要针对driver,worker,application的调度。首先获取所有可用的alive的worker,并将这个worker集合随机打乱,然后遍历获取等待调度的driver,如果worker的资源可以运行
2016-02-10 19:39:41 735
原创 spark源码学习(二)---Master源码分析(2)-master内组件状态改变机制
本篇学习master里面几个组件状态改变时发生的事情,自己写自己看,不对之处请拍砖。首先,来看driver的状态改变: case DriverStateChanged(driverId, state, exception) => { state match { //如果driver的状态是ERROR,Finished,killed,或者Failed
2016-02-09 13:24:03 751
原创 hadoop源码阅读之一:MR第二步:Mapper类
好久没写这个了 上一篇 http://blog.csdn.net/englishsname/article/details/45743901 还是好久前写的,下面学习mr步骤的第二步:Mapper过程源码,也就是我们所说的mapreduce的map阶段,自定义的mapper类都是继承自该类并实现其map方法。Mapper类包含:1.成员变量context:context继承自Map
2016-02-03 23:57:31 610 1
原创 spark源码学习(二)---Master源码分析(1)-master的主备切换机制
1.spark master HA 机制概览与hadoop一样,spark也存在单点故障问题,为此,spark的standalone模式提供了master的HA,与hadoop一样,一个是active,一个是standby状态,当active挂了,standby会顶上。spark HA的主备切换主要基于两种机制:基于文件系统和基于zk集群。前者在挂了后需要手动切换,而基于zk的HA可以自动实现
2016-02-03 23:24:12 1286 1
原创 spark源码学习(一)---sparkContext(2)
前面分析了sparkContext的TaskScheduler的启动过程,大致过程是创建一个TaskScheduler和一个SchedulerBackend,SchedulerBackend做为TaskScheduler的底层组件使用,TaskScheduler与master的交互都通过该组件完成。SchedulerBackend构造一个appdesc传给APPClient,AppClient会将
2016-02-03 22:08:25 686 1
原创 spark源码学习(一)---sparkContext(1)
一个sparkContext代表了一个连接到spark cluster的一个connection。sparkContext用来创建RDD,accumulators和broadcast变量,每个jvm只有一个sparkContext,这个限制后面可能不再适用。参见SPARK-2243。在我们的程序中通常构造一个sparkConf,然后用该sparkConf来构造SparkContext,任何对s
2016-02-02 23:26:52 1136
C primer plus编程练习答案 C primer plus答案
2009-12-31
在Linux世界驰骋系列教程 linux电子书
2009-12-26
CISSP学习指南 cissp
2009-12-26
J2EE架构师手册.chm(英文的)
2009-12-26
IPV6详解 tcp ip IPv6、ICMPv6
2009-07-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人