自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

colossus——bigdata的专栏

专注互联网,大数据,机器学习技术

  • 博客(13)
  • 资源 (31)
  • 收藏
  • 关注

原创 eclipse中配置python以及numpy库

本文描述的是python2.7,以及对应版本的numpy的安装。1.首先配置eclipse的python环境(1)配置pydev一是在eclipse里面搜索自动下载,但是这种方法容易被墙,安装不了。二是下载PyDev 2.7.1.zip,然后解压放到eclipse的dropins下,重启eclipse,新建工程出现pydev工程即可使用。下载地址:(2)配置python编译

2016-02-29 00:53:23 4746 1

原创 spark源码学习(八)--- executor启动task分析

本文基于spark1.6。上一篇文章提到TaskScheduler将task与executor分配好以后,交给executor来运行task,本文分析executor运行task。首先,在收到消息后,executor向driver注册,这部分的注册是由CoarseGrainedExecutorBackend而不是executor类来完成的。首先来看该类的初始化: override def

2016-02-21 13:05:49 1952

原创 spark源码学习(七)--- TaskScheduler源码分析

上一篇文章中,当程序执行到submitMissingTask的时候,会调用taskScheduler.submitTasks(new TaskSet(tasks.toArray, stage.id, stage.latestInfo.attemptId, jobId, properties))这个方法,其中的tasks是一个seq集合,每个partition会创建一个Task(ShuffleMap

2016-02-20 23:18:57 550

原创 spark源码学习(六)--- DAGScheduler中的task的划分

前面的文章中,当执行到submitstage的方法中,会调用到submitMissingTasks(stage, jobId.get)  这个方法。 private def submitMissingTasks(stage: Stage, jobId: Int) { logDebug("submitMissingTasks(" + stage + ")") // Get ou

2016-02-20 18:25:45 665

原创 spark源码学习(五)--- DAGScheduler中的stage的划分

上一篇文章中,当sparkContext初始化完成,并且worker也反向注册回来之后,程序代码开始运行,当遇到一个action操作的时候,该action函数会调用runjob函数,runjob最周会调用到DAGScheduler。本文将分析下面的DAGScheduler将一个job划分成若干个stage,每个stage又会分成若干个task,对与每个partition都会启动一个task,每个t

2016-02-20 15:56:19 1559

原创 spark源码学习(四)---job执行分析

在sparkRDD操作中,分为Transformation和action,Transformation是lazy操作,不会触发job,作业里的每个案出庭操作都会触发一个job,下面分析spark 从读取到计算的完整操作过程。在spark任务的代码里,在执行初始化sparkContext后,sparkContext调用textFile读取hadoop里的文件,下面分析读取过程: def t

2016-02-12 12:40:01 674

原创 spark源码学习(三)---worker源码分析-worker启动driver、executor分析

本文根据spark1.6源码。worker位于org.apache.spark.deploy.worker包下,本文分析worker对driver和executor的启动过程。前文分析中,当schedule方法会调用master的launchDriver方法以便启动driver: private def schedule(): Unit = { //如果当前的master处于st

2016-02-11 12:42:06 996

原创 spark源码学习(二)---Master源码分析(3)-master对driver、executor的调度

本文根据spark1.6源码。自己学习总结,错误之处请指正。schedule方法是资源调度的一个重要方法,当一个APp加入内存或者集群可用的资源发生变化的时候,就会调用该方法。该调度方法主要针对driver,worker,application的调度。首先获取所有可用的alive的worker,并将这个worker集合随机打乱,然后遍历获取等待调度的driver,如果worker的资源可以运行

2016-02-10 19:39:41 735

原创 spark源码学习(二)---Master源码分析(2)-master内组件状态改变机制

本篇学习master里面几个组件状态改变时发生的事情,自己写自己看,不对之处请拍砖。首先,来看driver的状态改变: case DriverStateChanged(driverId, state, exception) => { state match { //如果driver的状态是ERROR,Finished,killed,或者Failed

2016-02-09 13:24:03 751

原创 hadoop源码阅读之一:MR第二步:Mapper类

好久没写这个了 上一篇 http://blog.csdn.net/englishsname/article/details/45743901 还是好久前写的,下面学习mr步骤的第二步:Mapper过程源码,也就是我们所说的mapreduce的map阶段,自定义的mapper类都是继承自该类并实现其map方法。Mapper类包含:1.成员变量context:context继承自Map

2016-02-03 23:57:31 610 1

原创 spark源码学习(二)---Master源码分析(1)-master的主备切换机制

1.spark master HA 机制概览与hadoop一样,spark也存在单点故障问题,为此,spark的standalone模式提供了master的HA,与hadoop一样,一个是active,一个是standby状态,当active挂了,standby会顶上。spark HA的主备切换主要基于两种机制:基于文件系统和基于zk集群。前者在挂了后需要手动切换,而基于zk的HA可以自动实现

2016-02-03 23:24:12 1286 1

原创 spark源码学习(一)---sparkContext(2)

前面分析了sparkContext的TaskScheduler的启动过程,大致过程是创建一个TaskScheduler和一个SchedulerBackend,SchedulerBackend做为TaskScheduler的底层组件使用,TaskScheduler与master的交互都通过该组件完成。SchedulerBackend构造一个appdesc传给APPClient,AppClient会将

2016-02-03 22:08:25 686 1

原创 spark源码学习(一)---sparkContext(1)

一个sparkContext代表了一个连接到spark cluster的一个connection。sparkContext用来创建RDD,accumulators和broadcast变量,每个jvm只有一个sparkContext,这个限制后面可能不再适用。参见SPARK-2243。在我们的程序中通常构造一个sparkConf,然后用该sparkConf来构造SparkContext,任何对s

2016-02-02 23:26:52 1136

Ext.2.2.zip

Ext JS library 大家都懂的

2015-10-23

hadoop权威指南 中文版

hadoop权威指南 第二版 中文版 中文版的 看权威指南的次数等于您hadoop水平的高度

2014-03-04

数据迁移方法概述

数据迁移方法概述

2012-05-29

绘图控件TeeChart的功能介绍与应用举例

绘图控件TeeChart的功能介绍与应用举例

2012-05-29

C primer plus编程练习答案 C primer plus答案

C primer plus编程练习答案 C primer plus编程练习答案 C primer plus编程练习答案 C primer plus编程练习答案

2009-12-31

在Linux世界驰骋系列教程 linux电子书

在Linux世界驰骋系列教程.CHM在Linux世界驰骋系列教程.CHM在Linux世界驰骋系列教程.CHM在Linux世界驰骋系列教程.CHM

2009-12-26

CISSP学习指南 cissp

CISSP学习指南.pdfCISSP学习指南.pdfCISSP学习指南.pdfCISSP学习指南.pdfCISSP学习指南.pdfCISSP学习指南.pdf

2009-12-26

MySQL帮助文档.chm

MySQL5.1帮助文档.chmMySQL5.1帮助文档.chm

2009-12-26

J2EE架构师手册.chm(英文的)

J2EE架构师手册.chm(英文的)J2EE架构师手册.chm(英文的)J2EE架构师手册.chm(英文的)J2EE架构师手册.chm(英文的)

2009-12-26

java记事本 java 记事本

java记事本java记事本java记事本java记事本java记事本java记事本java记事本

2009-12-26

FCKeditor_2.6.4.1.zip

FCKeditor一款强大的组件 开发网站必备

2009-09-14

计算机组成原理 唐朔飞 ppt

计算机组成原理 唐朔飞版的 ppt 计算机组成原理 唐朔飞版的 ppt

2009-09-14

王爽《汇编语言》答案

王爽《汇编语言》答案 王爽 王爽《汇编语言》答案 王爽

2009-09-14

组成原理课后习题答案(唐朔飞).rar

计算机组成原理课后习题答案 唐朔飞 唐朔飞

2009-09-14

《C语言的科学和艺术》书中用到的类库

《C语言的科学和艺术》书中用到的类库 C语言的科学和艺术

2009-09-14

IPV6详解 tcp ip IPv6、ICMPv6

《IPv6详解》全面讲解IPv6及相关协议实现的事实标准KAME,揭示了KAME IPv6协议栈的所有细节,对每行代码到底做了什么以及为什么要这样设计都进行了解释。共分7章,分别介绍IPv6地址结构、IPv6、ICMPv6、邻居发现和无状态地址自动配置、传输层协议及套接字API扩展。每章都包含两个主要部分:第一部分提供了作为RFC发布的主要协议规范的摘要,定义各种协议分组,解释每个分组中每个字段的含义和目的;第二部分则描述实现这些RFC的KAME的数据结构及功能。书的最后还提供了一些例子,说明如何编写既可以在IPv4网络上运行、又可以在IPv6网络上运行的可移植应用程序。 《IPv6详解》是IPv6的权威参考书,适合网络设计和开发人员阅读。此外,还适合作为高校相关专业网络课程的教学参考书。 --------------------------------------------------------------------------------

2009-07-18

小游戏用java编写的宝石连连看 并赠送源代码和可执行程序

宝石连连看 小游戏用java编写的宝石连连看 并赠送源代码和可执行程序

2009-05-28

聊天工具用java编写的 包含客户端和服务端 并赠送源代码和可执行程序

聊天工具用java编写的 赠送源代码和可执行程序

2009-05-28

端口扫描器 用java编写的 赠送源代码和可执行程序

端口扫描器 用java编写的 赠送源代码和可执行程序

2009-05-28

java编写的蜘蛛纸牌 包含源代码和打包程序 极具参考价值

ava编写的蜘蛛纸牌 其中包含源代码和可执行程序 是学习java的捷径

2009-05-28

java编写的浏览器 包含源代码和打包程序 极具参考价值

java编写的浏览器 包含源代码和打包程序 极具参考价值

2009-05-28

谭浩强c语言ppt c语言ppt 谭浩强

谭浩强 谭浩强c语言 c语言ppt

2009-05-26

正则表达式入门经典 源代码

正则表达式入门经典 源代码 正则表达式入门经典

2009-05-15

java白皮书 java电子书

java经典书籍 事先声明 英文的 java白皮书 java白皮书 java白皮书

2009-05-15

谢希仁计算机网络第五版ppt

最新版的谢希仁计算机网络第五版的课件 考验 自学必备

2009-05-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除