Milkcoffeezhu的博客

小白学大数据

HDFS写数据和读数据的基本流程

一、HDFS写数据的基本流程    1、HDFS由如下的几个组件组成,他们分别是NameNode(NN),DataNode(DN),SecondaryNameNode(2NN),Client.    2、Client首先会去请求NN,请求上传数据,这时NN会去检查在集群中需要上传的目录是否存在,上...

2018-05-20 10:34:55

阅读数:7

评论数:0

ssh免密登录的配置及scp命令的详解

一、SSH免密登录的配置步骤如下     1、在配置ssh的之前先来看看ssh的基本原理           (1)加入现在需要在服务器A与服务器B之间配置ssh免密登录,服务器A使用命令ssh-keygen之后会在服务器A上生成公钥和私钥。           (2)使用ssh-copy-id把...

2018-05-18 11:39:20

阅读数:9

评论数:0

集群时间同步

一、在集群上进行任务调度的时候,集群中每一个计算节点时间的同步是非常重要的,尤其是作业定时运行时间的同步就更为重要,下面就一起来看看如何同步集群的时间。二、集群时间同步的基本步骤如下    1、检查集群是否安装ntp具体命令如下 rpm -qa|grep ntp    如果已经安装ntp如下图所...

2018-05-18 10:53:21

阅读数:10

评论数:0

Hadoop源码编译

1  准备 工作    1)CentOS 联网        配置 CentOS 能连接外网。Linux 虚拟机 ping www.baidu.com 是畅通的        注意:采用 root 角色编译,减少文件夹权限出现问题    2)jar 包准备(hadoop 源码、JDK7 、 mav...

2018-05-15 21:45:42

阅读数:25

评论数:0

Hadoop集群的搭建

一、在学习Hadoop的过程中自己切身去体验搭建hadoop集群的过程是非常重要的在集群搭建的过程中会遇到很多坑,在这儿我分享一下自己在搭建hadoop集群是遇到的坑。二、搭建hadoop集群所需的软件,以我本次搭建hadoop集群为例,我假设小伙伴已经成功的安装了centos6.8并且已经把网络...

2018-05-15 21:19:07

阅读数:5

评论数:0

HDFS的基本的架构

一、HDFS的基本的概述    (1)、HDFS是Hadoop的分布式文件系统,也是hadoop的重要组件之一,每一个事物都存在缺点和优点HDFS也不例外,具体的优点缺点如下。    (2)、HDFS的优点如下:            (a)、高容错性,一份数据在HDFS集群上由多个副本,即使其中...

2018-05-12 21:55:09

阅读数:85

评论数:0

CheckPoint剖析

一、spark执行checkpoint的基本的步骤如下        1、在调用rdd的checkpoint()这个方法的时候,就会接受RDDCheckpointData这个对象的管理,具体的源码如下:     /**     * 在调用checkpoint方法的时候,首先会去标记这个rdd...

2018-05-02 10:42:23

阅读数:8

评论数:0

CacheManager原理剖析

一、基本的流程     1、在task的rdd调用自己的iterator()方法对对某一个分区的数据进行计算的时候,首先会去查看再次之前rdd的数据有没有被持久化        (1)、如果之前没有持久化数据,那么就直接从其父亲rdd开始执行我们定义的算子操作计算出结果。        (2)、如...

2018-04-27 20:52:35

阅读数:22

评论数:0

BlockManager原理剖析

一、BlockManager的基本的架构以及其工作的原理        1、BlockManager也是主从结构,在Driver上面有一个真个BlockManager的管理者BlockManagerMaster主要是负责对元数据的管理,在BlockMananger在启动的时候首先会调用自己的初始化...

2018-04-26 10:45:11

阅读数:26

评论数:0

Spark的shuffle原理剖析

一、spark普通shuffle的基本原理      1、假如现在在一个节点上由4个shufflemapTask在执行,但是这个节点的core的数量数2,在远端有4个resultTask等待接收shuffleMapTask的数据进行处理      2、这样可以有两个shufflemaptask可以...

2018-04-24 16:25:25

阅读数:53

评论数:0

Task原理剖析

一、Task的执行的流程    1、在接收到LaunchTask的请求之后,会用一个TaskRunner来封装这个task,在TaskRunner的对需要的资源进行拷贝以及相关环境的初始化,然后再TaskRunner的run(因为继承了Runnable)方法中调用task的run()方法对task...

2018-04-23 19:26:58

阅读数:28

评论数:0

Executor原理剖析

一、详细的流程如下    1、后台线程CoarseGrainedExecutorBackend启动之后就会向Driver注册,如果注册成功就创建一个executor的执行句柄。override def onStart() { logInfo("Connecting to ...

2018-04-23 12:08:35

阅读数:16

评论数:0

DAGschedulerer原理剖析之stage划分算法

一、还是以wordcount为例进行stage划分的分析       1、首先spark程序会去代码数据集位置读取数据,调用textFile()方法,在这个时候内部的数据变化是从HadoopRDD变为MappedRDD。      2、在把数据读取到集群上形成分布式数据集,调用flatMap()算...

2018-04-22 15:18:09

阅读数:17

评论数:0

Job触发流程原理分析

以wordcount为例的Job触发流程原理的分析1、使用本地文件作为数据源,读取文件到spark上形成分布式的数据集,代码如下val lines = sc.textFile("D:\\QQPCmgr\\Desktop\\spark.txt", 1)      ...

2018-04-21 14:58:49

阅读数:14

评论数:0

Worker原理剖析

一、主要以worker启动Driver和executor为例进行Worker原理的分析二、Driver的启动详细步骤详解    1、worker在接收到Master的请求,请求启动Driver的时候,会调用方法LaunchDriver(driverId, driverDesc)来启动这个进程,参数...

2018-04-21 13:14:00

阅读数:55

评论数:0

Master原理剖析

说在前面的话:今天关于资源调度算法的理解,由于理解不够深入存在错误的地方,希望大家及时的指正,在这儿谢谢了哈一、主要剖析如下几个方面    1、Master主备切换机制原理的剖析    2、注册机制的原理剖析    3、状态改变机制原理的剖析    4、资源调度机制原理的剖析二、每一个方面的详细原...

2018-04-20 23:33:03

阅读数:24

评论数:0

SparkContext原理剖析

一、主要分析sparkcontext在启动时做如下三个方面    1、taskscheduler的创建与启动    2、DAGscheduler的创建与启动    3、sparkUI的创建与初始化二、各模块详解(以local模式为例)    1、taskscheduler的创建与启动       ...

2018-04-20 09:57:31

阅读数:15

评论数:0

Spark基于Yarn的两种提交模式

一、spark作业提交模式    1、standalone模式也就是我们在提交spark作业时的默认提交方式    2、Yarn-cluster模式    3、Yarn-client模式二、基于Yarn的两种提交模式的详解     1、Yarn-cluster提交模式的基本执行的步骤如下:    ...

2018-04-19 15:14:11

阅读数:22

评论数:0

以wordcount为例的依赖分析

一、依赖划分的原则    在一个RDD中不同的分区实际上是不同的数据集,在构建DAG的时候会根据依赖关系把这些RDD连接起来,每一个RDD都有依赖RDD(除了最顶级RDD依赖空列表),RDD之间的依赖关系有NarrowdeDendency(窄依赖)和ShuffleDendency(宽依赖)这两种,...

2018-04-19 12:28:10

阅读数:25

评论数:0

Spark内核深度剖析

一、相关的组件以及名词    1、Application    2、spark-submit    3、Driver    4、DAGscheduler    5、taskscheduler    6、Master    7、worker    9、exector    10、task    11...

2018-04-18 18:15:54

阅读数:23

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭