Milkcoffeezhu的博客

机会只会留给那些有准备的人

排序:
默认
按更新时间
按访问量

阿里云搭建spark集群最坑问题

一、在阿里云上搭建spark集群遇到如下问题8/07/14 13:43:54 INFO SecurityManager: SecurityManager: authentication disabled; ui acls disabled; users with view permissions...

2018-07-14 13:57:51

阅读数:165

评论数:0

MR执行流程详解

一、在我们提交完MR程序之后,MR程序会先后经历map,shuffle,reduce阶段,下面我们详细的来解析一下各个阶段    1、map阶段,在这个阶段主要分如下的几个步骤read,map,collect,溢写,combine阶段        (1)、在read阶段,maptask会调用用户...

2018-06-03 09:41:59

阅读数:749

评论数:0

NmaeNode和SecondaryNameNode的工作机制详解

一、基本概述    NameNode管理着整个HDFS的元数据信息,是整个HDFS的Master因此显得NameNode就非常重要,NameNode的可靠性决定可整个文件系统的稳定性,在NameNode工作的时候在其工作目录中会有两种文件第一个就是内存镜像文件fsimage和编辑日志edits文件...

2018-05-24 01:10:35

阅读数:36

评论数:0

HDFS写数据和读数据的基本流程

一、HDFS写数据的基本流程    1、HDFS由如下的几个组件组成,他们分别是NameNode(NN),DataNode(DN),SecondaryNameNode(2NN),Client.    2、Client首先会去请求NN,请求上传数据,这时NN会去检查在集群中需要上传的目录是否存在,上...

2018-05-20 10:34:55

阅读数:52

评论数:0

ssh免密登录的配置及scp命令的详解

一、SSH免密登录的配置步骤如下     1、在配置ssh的之前先来看看ssh的基本原理           (1)加入现在需要在服务器A与服务器B之间配置ssh免密登录,服务器A使用命令ssh-keygen之后会在服务器A上生成公钥和私钥。           (2)使用ssh-copy-id把...

2018-05-18 11:39:20

阅读数:73

评论数:0

集群时间同步

一、在集群上进行任务调度的时候,集群中每一个计算节点时间的同步是非常重要的,尤其是作业定时运行时间的同步就更为重要,下面就一起来看看如何同步集群的时间。二、集群时间同步的基本步骤如下    1、检查集群是否安装ntp具体命令如下 rpm -qa|grep ntp    如果已经安装ntp如下图所...

2018-05-18 10:53:21

阅读数:54

评论数:0

Hadoop源码编译

1  准备 工作    1)CentOS 联网        配置 CentOS 能连接外网。Linux 虚拟机 ping www.baidu.com 是畅通的        注意:采用 root 角色编译,减少文件夹权限出现问题    2)jar 包准备(hadoop 源码、JDK7 、 mav...

2018-05-15 21:45:42

阅读数:41

评论数:0

Hadoop集群的搭建

一、在学习Hadoop的过程中自己切身去体验搭建hadoop集群的过程是非常重要的在集群搭建的过程中会遇到很多坑,在这儿我分享一下自己在搭建hadoop集群是遇到的坑。二、搭建hadoop集群所需的软件,以我本次搭建hadoop集群为例,我假设小伙伴已经成功的安装了centos6.8并且已经把网络...

2018-05-15 21:19:07

阅读数:24

评论数:0

HDFS的基本的架构

一、HDFS的基本的概述    (1)、HDFS是Hadoop的分布式文件系统,也是hadoop的重要组件之一,每一个事物都存在缺点和优点HDFS也不例外,具体的优点缺点如下。    (2)、HDFS的优点如下:            (a)、高容错性,一份数据在HDFS集群上由多个副本,即使其中...

2018-05-12 21:55:09

阅读数:114

评论数:0

CheckPoint剖析

一、spark执行checkpoint的基本的步骤如下        1、在调用rdd的checkpoint()这个方法的时候,就会接受RDDCheckpointData这个对象的管理,具体的源码如下:     /**     * 在调用checkpoint方法的时候,首先会去标记这个rdd...

2018-05-02 10:42:23

阅读数:29

评论数:0

CacheManager原理剖析

一、基本的流程     1、在task的rdd调用自己的iterator()方法对对某一个分区的数据进行计算的时候,首先会去查看再次之前rdd的数据有没有被持久化        (1)、如果之前没有持久化数据,那么就直接从其父亲rdd开始执行我们定义的算子操作计算出结果。        (2)、如...

2018-04-27 20:52:35

阅读数:38

评论数:0

BlockManager原理剖析

一、BlockManager的基本的架构以及其工作的原理        1、BlockManager也是主从结构,在Driver上面有一个真个BlockManager的管理者BlockManagerMaster主要是负责对元数据的管理,在BlockMananger在启动的时候首先会调用自己的初始化...

2018-04-26 10:45:11

阅读数:80

评论数:0

Spark的shuffle原理剖析

一、spark普通shuffle的基本原理      1、假如现在在一个节点上由4个shufflemapTask在执行,但是这个节点的core的数量数2,在远端有4个resultTask等待接收shuffleMapTask的数据进行处理      2、这样可以有两个shufflemaptask可以...

2018-04-24 16:25:25

阅读数:97

评论数:0

Task原理剖析

一、Task的执行的流程    1、在接收到LaunchTask的请求之后,会用一个TaskRunner来封装这个task,在TaskRunner的对需要的资源进行拷贝以及相关环境的初始化,然后再TaskRunner的run(因为继承了Runnable)方法中调用task的run()方法对task...

2018-04-23 19:26:58

阅读数:54

评论数:0

Executor原理剖析

一、详细的流程如下    1、后台线程CoarseGrainedExecutorBackend启动之后就会向Driver注册,如果注册成功就创建一个executor的执行句柄。override def onStart() { logInfo("Connecting to ...

2018-04-23 12:08:35

阅读数:36

评论数:0

DAGschedulerer原理剖析之stage划分算法

一、还是以wordcount为例进行stage划分的分析       1、首先spark程序会去代码数据集位置读取数据,调用textFile()方法,在这个时候内部的数据变化是从HadoopRDD变为MappedRDD。      2、在把数据读取到集群上形成分布式数据集,调用flatMap()算...

2018-04-22 15:18:09

阅读数:24

评论数:0

Job触发流程原理分析

以wordcount为例的Job触发流程原理的分析1、使用本地文件作为数据源,读取文件到spark上形成分布式的数据集,代码如下val lines = sc.textFile("D:\\QQPCmgr\\Desktop\\spark.txt", 1)      ...

2018-04-21 14:58:49

阅读数:25

评论数:0

Worker原理剖析

一、主要以worker启动Driver和executor为例进行Worker原理的分析二、Driver的启动详细步骤详解    1、worker在接收到Master的请求,请求启动Driver的时候,会调用方法LaunchDriver(driverId, driverDesc)来启动这个进程,参数...

2018-04-21 13:14:00

阅读数:71

评论数:0

Master原理剖析

说在前面的话:今天关于资源调度算法的理解,由于理解不够深入存在错误的地方,希望大家及时的指正,在这儿谢谢了哈一、主要剖析如下几个方面    1、Master主备切换机制原理的剖析    2、注册机制的原理剖析    3、状态改变机制原理的剖析    4、资源调度机制原理的剖析二、每一个方面的详细原...

2018-04-20 23:33:03

阅读数:74

评论数:0

SparkContext原理剖析

一、主要分析sparkcontext在启动时做如下三个方面    1、taskscheduler的创建与启动    2、DAGscheduler的创建与启动    3、sparkUI的创建与初始化二、各模块详解(以local模式为例)    1、taskscheduler的创建与启动       ...

2018-04-20 09:57:31

阅读数:32

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭