2016年02月_colossus_bigdata

12月 11月 10月 07月 06月 04月 03月 02月

原创 eclipse中配置python以及numpy库

本文描述的是python2.7，以及对应版本的numpy的安装。1.首先配置eclipse的python环境（1）配置pydev一是在eclipse里面搜索自动下载，但是这种方法容易被墙，安装不了。二是下载PyDev 2.7.1.zip，然后解压放到eclipse的dropins下，重启eclipse，新建工程出现pydev工程即可使用。下载地址：（2）配置python编译

2016-02-29 00:53:23 4746 1

原创 spark源码学习（八）--- executor启动task分析

本文基于spark1.6。上一篇文章提到TaskScheduler将task与executor分配好以后，交给executor来运行task，本文分析executor运行task。首先，在收到消息后，executor向driver注册，这部分的注册是由CoarseGrainedExecutorBackend而不是executor类来完成的。首先来看该类的初始化： override def

2016-02-21 13:05:49 1952

原创 spark源码学习（七）--- TaskScheduler源码分析

上一篇文章中，当程序执行到submitMissingTask的时候，会调用taskScheduler.submitTasks(new TaskSet(tasks.toArray, stage.id, stage.latestInfo.attemptId, jobId, properties))这个方法，其中的tasks是一个seq集合，每个partition会创建一个Task（ShuffleMap

2016-02-20 23:18:57 550

原创 spark源码学习（六）--- DAGScheduler中的task的划分

前面的文章中，当执行到submitstage的方法中，会调用到submitMissingTasks(stage, jobId.get) 这个方法。 private def submitMissingTasks(stage: Stage, jobId: Int) { logDebug("submitMissingTasks(" + stage + ")") // Get ou

2016-02-20 18:25:45 665

原创 spark源码学习（五）--- DAGScheduler中的stage的划分

上一篇文章中，当sparkContext初始化完成，并且worker也反向注册回来之后，程序代码开始运行，当遇到一个action操作的时候，该action函数会调用runjob函数，runjob最周会调用到DAGScheduler。本文将分析下面的DAGScheduler将一个job划分成若干个stage，每个stage又会分成若干个task，对与每个partition都会启动一个task，每个t

2016-02-20 15:56:19 1559

原创 spark源码学习（四）---job执行分析

在sparkRDD操作中，分为Transformation和action，Transformation是lazy操作，不会触发job，作业里的每个案出庭操作都会触发一个job，下面分析spark 从读取到计算的完整操作过程。在spark任务的代码里，在执行初始化sparkContext后，sparkContext调用textFile读取hadoop里的文件，下面分析读取过程： def t

2016-02-12 12:40:01 674

原创 spark源码学习（三）---worker源码分析-worker启动driver、executor分析

本文根据spark1.6源码。worker位于org.apache.spark.deploy.worker包下，本文分析worker对driver和executor的启动过程。前文分析中，当schedule方法会调用master的launchDriver方法以便启动driver： private def schedule(): Unit = { //如果当前的master处于st

2016-02-11 12:42:06 996

原创 spark源码学习（二）---Master源码分析(3)-master对driver、executor的调度

本文根据spark1.6源码。自己学习总结，错误之处请指正。schedule方法是资源调度的一个重要方法，当一个APp加入内存或者集群可用的资源发生变化的时候，就会调用该方法。该调度方法主要针对driver，worker，application的调度。首先获取所有可用的alive的worker，并将这个worker集合随机打乱，然后遍历获取等待调度的driver，如果worker的资源可以运行

2016-02-10 19:39:41 735

原创 spark源码学习（二）---Master源码分析(2)-master内组件状态改变机制

本篇学习master里面几个组件状态改变时发生的事情，自己写自己看，不对之处请拍砖。首先，来看driver的状态改变： case DriverStateChanged(driverId, state, exception) => { state match { //如果driver的状态是ERROR，Finished，killed，或者Failed

2016-02-09 13:24:03 751

原创 hadoop源码阅读之一：MR第二步：Mapper类

好久没写这个了上一篇 http://blog.csdn.net/englishsname/article/details/45743901 还是好久前写的，下面学习mr步骤的第二步：Mapper过程源码，也就是我们所说的mapreduce的map阶段，自定义的mapper类都是继承自该类并实现其map方法。Mapper类包含：1.成员变量context：context继承自Map

2016-02-03 23:57:31 610 1

原创 spark源码学习（二）---Master源码分析(1)-master的主备切换机制

1.spark master HA 机制概览与hadoop一样，spark也存在单点故障问题，为此，spark的standalone模式提供了master的HA，与hadoop一样，一个是active，一个是standby状态，当active挂了，standby会顶上。spark HA的主备切换主要基于两种机制：基于文件系统和基于zk集群。前者在挂了后需要手动切换，而基于zk的HA可以自动实现

2016-02-03 23:24:12 1286 1

原创 spark源码学习（一）---sparkContext(2)

前面分析了sparkContext的TaskScheduler的启动过程，大致过程是创建一个TaskScheduler和一个SchedulerBackend，SchedulerBackend做为TaskScheduler的底层组件使用，TaskScheduler与master的交互都通过该组件完成。SchedulerBackend构造一个appdesc传给APPClient，AppClient会将

2016-02-03 22:08:25 686 1

原创 spark源码学习（一）---sparkContext(1)

一个sparkContext代表了一个连接到spark cluster的一个connection。sparkContext用来创建RDD，accumulators和broadcast变量，每个jvm只有一个sparkContext，这个限制后面可能不再适用。参见SPARK-2243。在我们的程序中通常构造一个sparkConf，然后用该sparkConf来构造SparkContext，任何对s

2016-02-02 23:26:52 1136

Ext.2.2.zip

Ext JS library 大家都懂的

2015-10-23

hadoop权威指南中文版

hadoop权威指南第二版中文版中文版的看权威指南的次数等于您hadoop水平的高度

2014-03-04

数据迁移方法概述

2012-05-29

《IPv6详解》全面讲解IPv6及相关协议实现的事实标准KAME，揭示了KAME IPv6协议栈的所有细节，对每行代码到底做了什么以及为什么要这样设计都进行了解释。共分7章，分别介绍IPv6地址结构、IPv6、ICMPv6、邻居发现和无状态地址自动配置、传输层协议及套接字API扩展。每章都包含两个主要部分：第一部分提供了作为RFC发布的主要协议规范的摘要，定义各种协议分组，解释每个分组中每个字段的含义和目的；第二部分则描述实现这些RFC的KAME的数据结构及功能。书的最后还提供了一些例子，说明如何编写既可以在IPv4网络上运行、又可以在IPv6网络上运行的可移植应用程序。《IPv6详解》是IPv6的权威参考书，适合网络设计和开发人员阅读。此外，还适合作为高校相关专业网络课程的教学参考书。 --------------------------------------------------------------------------------

2009-07-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

colossus——bigdata的专栏

原创 eclipse中配置python以及numpy库

原创 spark源码学习（八）--- executor启动task分析

原创 spark源码学习（七）--- TaskScheduler源码分析

原创 spark源码学习（六）--- DAGScheduler中的task的划分

原创 spark源码学习（五）--- DAGScheduler中的stage的划分

原创 spark源码学习（四）---job执行分析

原创 spark源码学习（三）---worker源码分析-worker启动driver、executor分析

原创 spark源码学习（二）---Master源码分析(3)-master对driver、executor的调度

原创 spark源码学习（二）---Master源码分析(2)-master内组件状态改变机制

原创 hadoop源码阅读之一：MR第二步：Mapper类

原创 spark源码学习（二）---Master源码分析(1)-master的主备切换机制

原创 spark源码学习（一）---sparkContext(2)

原创 spark源码学习（一）---sparkContext(1)

Ext.2.2.zip

hadoop权威指南中文版

数据迁移方法概述

绘图控件TeeChart的功能介绍与应用举例

C primer plus编程练习答案 C primer plus答案

在Linux世界驰骋系列教程 linux电子书

CISSP学习指南 cissp

MySQL帮助文档.chm

J2EE架构师手册.chm（英文的）

java记事本 java 记事本

FCKeditor_2.6.4.1.zip

计算机组成原理唐朔飞 ppt

王爽《汇编语言》答案

组成原理课后习题答案（唐朔飞）.rar

《C语言的科学和艺术》书中用到的类库

IPV6详解 tcp ip IPv6、ICMPv6

小游戏用java编写的宝石连连看并赠送源代码和可执行程序

聊天工具用java编写的包含客户端和服务端并赠送源代码和可执行程序

端口扫描器用java编写的赠送源代码和可执行程序

java编写的蜘蛛纸牌包含源代码和打包程序极具参考价值

java编写的浏览器包含源代码和打包程序极具参考价值

谭浩强c语言ppt c语言ppt 谭浩强

正则表达式入门经典源代码

java白皮书 java电子书

谢希仁计算机网络第五版ppt

空空如也

Ext.2.2.zip

hadoop权威指南 中文版

数据迁移方法概述

绘图控件TeeChart的功能介绍与应用举例

C primer plus编程练习答案 C primer plus答案

在Linux世界驰骋系列教程 linux电子书

CISSP学习指南 cissp

MySQL帮助文档.chm

J2EE架构师手册.chm（英文的）

java记事本 java 记事本

FCKeditor_2.6.4.1.zip

计算机组成原理 唐朔飞 ppt

王爽《汇编语言》答案

组成原理课后习题答案（唐朔飞）.rar

《C语言的科学和艺术》书中用到的类库

IPV6详解 tcp ip IPv6、ICMPv6

小游戏用java编写的宝石连连看 并赠送源代码和可执行程序

聊天工具用java编写的 包含客户端和服务端 并赠送源代码和可执行程序

端口扫描器 用java编写的 赠送源代码和可执行程序

java编写的蜘蛛纸牌 包含源代码和打包程序 极具参考价值

java编写的浏览器 包含源代码和打包程序 极具参考价值

谭浩强c语言ppt c语言ppt 谭浩强

正则表达式入门经典 源代码

java白皮书 java电子书

谢希仁计算机网络第五版ppt

空空如也

hadoop权威指南中文版

计算机组成原理唐朔飞 ppt

小游戏用java编写的宝石连连看并赠送源代码和可执行程序

聊天工具用java编写的包含客户端和服务端并赠送源代码和可执行程序

端口扫描器用java编写的赠送源代码和可执行程序

java编写的蜘蛛纸牌包含源代码和打包程序极具参考价值

java编写的浏览器包含源代码和打包程序极具参考价值

正则表达式入门经典源代码