杯莫廷-CSDN博客

原创 Hive常用操作

Hive常用操作1、建库create database mydb;create database if no exists mydb;create database if no exists mydb location "/aa/bb";2、查询数据库查询库列表：show databases;查询库详细信息：desc database [extended] mydb;查询建库的详...

2020-01-17 16:51:28 151

原创 Hadoop集群中有三种作业调度算法

Hadoop集群中有三种作业调度算法Hadoop集群中有三种作业调度算法，分别为FIFO，公平调度算法和计算能力调度算法先来先服务（FIFO）Hadoop中默认的调度器FIFO，它先按照作业的优先级高低，再按照到达时间的先后选择被执行的作业。FIFO比较简单，hadoop中只有一个作业队列，被提交的作业按照先后顺序在作业队列中排队，新来的作业插入到队尾。一个作业运行完后，总是从队首取下一个...

2019-12-27 16:50:27 631

原创 Hadoop中Namenode，Datanode，和Client三者之间的协作关系

Hadoop中Namenode，Datanode，和Client三者之间的协作关系NameNode、DataNode和Client NameNode可以看作是分布式文件系统中的管理者，主要负责管理文件系统的命名空间、集群配置信息和存储块的复制等。NameNode会将文件系统的Meta-data存储在内存中，这些信息主要包括了文件信息、每一个文件对应的文件块的信息和每一个文件块在Data...

2019-12-27 16:45:11 604

HDFS体系结构简介及优缺点1.1体系结构简介HDFS是一个主/从（Mater/Slave）体系结构，从最终用户的角度来看，它就像传统的文件系统一样，可以通过目录路径对文件执行CRUD（Create、Read、Update和Delete）操作。但由于分布式存储的性质，HDFS集群拥有一个NameNode和一些DataNode。NameNode管理文件系统的元数据，DataNode存储实际的数据...

2019-12-27 16:38:57 818

原创 Java中常用的几个基础排序算法

Java中常用的几个基础排序算法所谓排序，就是使一串记录，按照其中的某个或某些关键字的大小，递增或递减的排列起来的操作。排序算法，就是如何使得记录按照要求排列的方法。排序算法在很多领域得到相当地重视，尤其是在大量数据的处理方面。一个优秀的算法可以节省大量的资源。在各个领域中考虑到数据的各种限制和规范，要得到一个符合实际的优秀算法，得经过大量的推理和分析。本文就冒泡排序，直接排序，快速排序简单写...

2019-12-18 19:59:41 169

原创 HadoopMapReduce 的 Shuffle 阶段

HadoopMapReduce 的 Shuffle 阶段Hadoop MapReduce 的 Shuffle 阶段是指从 Map 的输出开始，包括系统执行排序，以及传送 Map 输出到 Reduce 作为输入的过程。排序阶段是指对 Map 端输出的 Key 进行排序的过程。不同的 Map 可能输出相同的 Key，相同的 Key 必须发送到同一个 Reduce 端处理。Shuffle 阶段可以分...

2019-12-17 16:18:14 497

原创 Hadoop Mapreduce执行流程

Hadoop MapReduce作业执行流程整个 Hadoop MapReduce 的作业执行流程如图所示1、提交作业客户端向 JobTracker 提交作业。首先，用户需要将所有应该配置的参数根据需求配置好。作业提交之后，就会进入自动化执行。在这个过程中，用户只能监控程序的执行情况和强制中断作业，但是不能对作业的执行过程进行任何干预。提交作业的基本过程如下。1）客户端通过 Runjob...

2019-12-17 16:07:36 460

原创 Spark各阶段执行流程简介（图片）

Spark各过程详解图Spark 是美国加州大学伯克利分校的 AMP 实验室（主要创始人 lester 和 Matei）开发的通用的大数据处理框架。本文就以下几个小方面来简介一下spark各阶段的流程：包括Spark启动过程，Spark运行原理框架图，Spark stage阶段划分算法，SparkContext的构建过程，Spark-on-yarn模式讲解，SparkMasterHA机制，...

2019-12-17 15:38:11 844

杯莫廷的博客