Hadoop Day01

最新推荐文章于 2022-04-14 17:49:58 发布

疯满的瘦子

最新推荐文章于 2022-04-14 17:49:58 发布

阅读量374

点赞数 1

本文链接：https://blog.csdn.net/qq_42147083/article/details/102598739

版权

一.大数据

大数据介绍

1.大数据的由来

随着计算机技术的发展,互联网的普及,信息的积累已经到了一个非常庞大的地步,信息的增长也在不断的加快,随着互联网,物联网建设的加快,信息更是爆炸式增长,收集,检索,统计这些信息越发困难,必须使用新的技术来解决这些问题

2.什么是大数据

大数据的定义:
大数据指无法在一定时间范围内用常规软件工具进行捕捉,管理和处理的数据的集合,需要新处理模式才能具有更强的决策力,洞察发现力和流程优化能力的海量,高增长率和多样化的信息资产.
是指从各种各样类型的数据中,快速获得有价值的信息
大数据能做什么

企业组织利用相关数据分析帮助他们降低成本,提高效率,开发新产品,做出更明智的业务决策等
把数据集合并后进行分析得出的信息和数据关系性,用来察觉商业趋势,判定研究质量,避免疾病扩散,打击犯罪或测定即时交通路况等
大规模并行处理数据库,数据挖掘电网,分布式文件系统或数据库,云计算平和可扩展的存储系统等

3.大数据特性

大数据的5V特性

Volume(大体量)
可从数百TB到数十数百PB,甚至EB的规模
记录/日志,事务,表&文件
Variety(多样性)
大数据包括各种格式和形态的数据
结构化,非结构化,多因素,概率论
Velocity(时效性)
很多大数据需要在一定的时间限度下得到及时处理
批处理,实时,多进程,数据流
-Veracity(准确性)
处理的结果要保证一定的准确性
可信性,真伪性,来源&信誉,有效性,可审计性
Value(大价值)
大数据包含很多深度的价值,大数据分析挖掘和利用将带来巨大的商业价值
统计学,事件性,相关性,假设性

4.大数据与Hadoop

Hadoop
Hadoop是一种分析和处理海量数据的软件平台;
Hadoop是一款开源软件,使用JAVA开发;
Hadoop可以提供一个分布式基础架构(Apache基金会所开发);
Hadoop特点
高可靠性
Hadoop按位存储和处理数据的能力值得人们信赖。
高扩展性
Hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。
高效性
Hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快。
高容错性
Hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配。
低成本
与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比，hadoop是开源的，项目的软件成本因此会大大降低。

Hadoop带有用Java语言编写的框架，因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写，比如 C++。

二.Hadoop

1.Hadoop历史起源

2003年开始Google陆续发表了3篇论文

GFS,MapReduce,BigTable
GFS
GFS是一个可扩展的分布式文件系统,用于大型的,分布式的,对大量数据进行访问的应用;
可以运行与廉价的普通硬件上,提供容错功能.
MapReduce
MapReduce是针对分布式并行计算的一套编程模型,由Map和Reduce组成,Map是映射,把指令分发到多个worker上,Reduce是规约,把worker计算出的结果合并.
BigTable
BigTable是存储结构化数据;
BigTable建立在GFS,Scheduler,Lock Service和MapReduce之上;
每个Table都是一个多维的稀疏图.

GFS,MapReduce和BigTable三大技术被称为Google的三驾马车,虽然没有公布源码,但发布了这三个产品的详细设计论;
Yahoo资助的Hadoop,是按照这三篇论文的开源Java实现的,但在性能上Hadoop比Google要差很多;

GFS —> HDFS
MapReduce —> MapReduce
BigTable —> Hbase

2.Hadoop组件

2.1 Hadoop常用组件

HDFS( Hadoop Distributed File System):Hadoop分布式文件系统(核心组件)
HDFS放宽了（relax）POSIX的要求，可以以流的形式访问（streaming access）文件系统中的数据.
HDFS有着文件系统共同的特征,有目录结构,顶层目录是"/",系统中存放的就是文件,系统可以提供对文件的：创建、删除、修改、查看、移动等功能.
HDFS跟普通的单机文件系统有区别:单机文件系统中存放的文件，是在一台机器的操作系统中, HDFS的文件系统会横跨N多的机器
单机文件系统中存放的文件，是在一台机器的磁盘上.
HDFS文件系统中存放的文件，是落在n多机器的本地单机文件系统中（HDFS是一个基于linux本地文件系统之上的文件系统）.
HDFS的工作原理:用户把一个文件存入HDFS，其实HDFS会把这个文件切块后，分散存储在N台linux机器系统中（负责存储文件块的角色：datanode,准确来说,切块的行为是由客户端决定的).一旦文件被切块存储，那么，HDFS中就必须有一个机制，来记录用户的每一个文件的切块信息，及每一块的具体存储机器（负责记录块信息的角色是：namenode）,为了保证数据的安全性，HDFS可以将每一个文件块在集群中存放多个副本（到底存几个副本，是由当时存入该文件的客户端指定的）.

MapReduce:分布式计算框架(核心组件)
MapReduce是一种用于大规模数据集(大于1TB)的并行运算的编程模型.概念”Map（映射）”和”Reduce（归约）”，是它们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。当前的软件实现是指定一个Map（映射）函数，用来把一组键值对映射成一组新的键值对，指定并发的Reduce（归约）函数，用来保证所有映射的键值对中的每一个共享相同的键组。
Yarn: 集群资源管理系统(核心组件)
YARN（Yet Another Resource Negotiator，另一种资源协调者）最初是为了修复MapReduce实现里的明显不足，并对可伸缩性（支持一万个节点和二十万个内核的集群）、可靠性和集群利用率进行了提升。YARN实现这些需求的方式是，把Job Tracker的两个主要功能（资源管理和作业调度/监控）分成了两个独立的服务程序——全局的资源管理（RM）和针对每个应用的应用 Master（AM），这里说的应用要么是传统意义上的MapReduce任务，要么是任务的有向无环图（DAG）。YARN从某种那个意义上来说应该算做是一个云操作系统，它负责集群的资源管理。
Pig:基于Hadoop的数据流系统
Apache Pig 是一个高级过程语言，适合于使用 Hadoop 和 MapReduce 平台来查询大型半结构化数据集。通过允许对分布式数据集进行类似 SQL 的查询，Pig 可以简化 Hadoop 的使用。
用MapReduce进行数据分析,当业务比较复杂的时候，使用MapReduce将会是一个很复杂的事情，比如你需要对数据进行很多预处理或转换，以便能够适应MapReduce的处理模式。另一方面，编写MapReduce程序，发布及运行作业都将是一个比较耗时的事情。Pig的出现很好的弥补了这一不足。Pig能够让你专心于数据及业务本身，而不是纠结于数据的格式转换以及MapReduce程序的编写。本质是上来说，当你使用Pig进行处理时，Pig本身会在后台生成一系列的MapReduce操作来执行任务，但是这个过程对用户来说是透明的。
Hive:基于Hadoop的数据仓库
Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 HQL，它允许熟悉 SQL 的用户查询数据。同时，这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。
Hive 没有专门的数据格式。 Hive 可以很好的工作在 Thrift 之上，控制分隔符，也允许用户指定数据格式。

Hbase:分布式列存数据库
HBase是一个分布式的、面向列的开源数据库，该技术来源于 Fay Chang 所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统（File System）所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。
Cassandra:分布式NoSQL数据库系统
Cassandra是一套开源分布式NoSQL数据库系统。它最初由Facebook开发，用于储存收件箱等简单格式数据，集GoogleBigTable的数据模型与Amazon Dynamo的完全分布式的架构于一身Facebook于2008将 Cassandra 开源，此后，由于Cassandra良好的可扩展性，被Digg、Twitter等知名Web 2.0网站所采纳，成为了一种流行的分布式结构化数据存储方案。
Cassandra是一个混合型的非关系的数据库，类似于Google的BigTable。其主要功能比Dynamo （分布式的Key-Value存储系统）更丰富，但支持度却不如文档存储MongoDB（介于关系数据库和非关系数据库之间的开源产品，是非关系数据库当中功能最丰富，最像关系数据库的。支持的数据结构非常松散，是类似json的bjson格式，因此可以存储比较复杂的数据类型）。Cassandra最初由Facebook开发，后转变成了开源项目。它是一个网络社交云计算方面理想的数据库。以Amazon专有的完全分布式的Dynamo为基础，结合了Google BigTable基于列族（Column Family）的数据模型。P2P去中心化的存储。很多方面都可以称之为Dynamo 2.0。
Zookeeper:分布式协作服务
分布式锁设施，提供类似Google Chubby的功能
Sqoop:数据同步工具
于在HADOOP与传统的数据库间进行数据的传递
Mahout:数据挖掘算法库

Flume:日志收集工具

2.2 Hadoop核心组件

在这里插入图片描述
HDFS( Hadoop Distributed File System):Hadoop分布式文件系统
对外部客户机而言，HDFS就像一个传统的分级文件系统。可以创建、删除、移动或重命名文件，等等。但是 HDFS 的架构是基于一组特定的节点构建的（参见图 1），这是由它自身的特点决定的。这些节点包括 NameNode（仅一个），它在 HDFS 内部提供元数据服务；DataNode，它为 HDFS 提供存储块。由于仅存在一个 NameNode，因此这是 HDFS 1.x版本的一个缺点（单点失败）。在Hadoop 2.x版本可以存在两个NameNode，解决了单节点故障问题。
存储在 HDFS 中的文件被分成块，然后将这些块复制到多个计算机中（DataNode）。这与传统的 RAID 架构大不相同。块的大小（1.x版本默认为 64MB，2.x版本默认为128MB）和复制的块数量在创建文件时由客户机决定。NameNode 可以控制所有文件操作。HDFS 内部的所有通信都基于标准的 TCP/IP 协议。

MapReduce
Hadoop是一种分布式数据和计算的框架。它很擅长存储大量的半结构化的数据集。数据可以随机存放，所以一个磁盘的失败并不会带来数据丢失。Hadoop也非常擅长分布式计算——快速地跨多台机器处理大型数据集合。
是处理大量半结构化数据集合的编程模型。编程模型是一种处理并结构化特定问题的方式。例如，在一个关系数据库中，使用一种集合语言执行查询，如SQL。告诉语言想要的结果，并将它提交给系统来计算出如何产生计算。还可以用更传统的语言(C++，Java)，一步步地来解决问题。这是两种不同的编程模型，MapReduce就是另外一种。

YARN （Yet Another Resource Negotiator，另一种资源协调者）
Apache Hadoop YARN是一种新的 Hadoop 资源管理器，它是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。
YARN的基本思想是将JobTracker的两个主要功能（资源管理和作业调度/监控）分离，主要方法是创建一个全局的ResourceManager（RM）和若干个针对应用程序的ApplicationMaster（AM）。
YARN 分层结构的本质是 ResourceManager。这个实体控制整个集群并管理应用程序向基础计算资源的分配。ResourceManager 将各个资源部分（计算、内存、带宽等）精心安排给基础 NodeManager（YARN 的每节点代理）。ResourceManager 还与 ApplicationMaster 一起分配资源，与 NodeManager 一起启动和监视它们的基础应用程序。ApplicationMaster 承担了以前的 TaskTracker 的一些角色，ResourceManager 承担了 JobTracker 的角色。
ApplicationMaster 管理一个在 YARN 内运行的应用程序的每个实例。ApplicationMaster 负责协调来自 ResourceManager 的资源，并通过 NodeManager 监视容器的执行和资源使用（CPU、内存等的资源分配）。从 YARN 角度讲，ApplicationMaster 是用户代码，因此存在潜在的安全问题。YARN 假设 ApplicationMaster 存在错误或者甚至是恶意的，因此将它们当作无特权的代码对待。
NodeManager 管理一个 YARN 集群中的每个节点。NodeManager 提供针对集群中每个节点的服务，从监督对一个容器的终生管理到监视资源和跟踪节点健康。MRv1(MapReduce 的第一个版本)通过插槽管理 Map 和 Reduce 任务的执行，而 NodeManager 管理抽象容器，这些容器代表着可供一个特定应用程序使用的针对每个节点的资源。YARN 继续使用 HDFS 层。它的主要 NameNode 用于元数据服务，而 DataNode 用于分散在一个集群中的复制存储服务。

2.3 Hadoop生态系统

在这里插入图片描述

2.4 HDFS

在这里插入图片描述

2.5 HDFS角色及概念

Hadoop体系中数据存储管理的基础,是一个高度容错的系统,用于在低成本的通用硬件上运行.
角色和概念:
Client : 客户端
Namenode : master节点(名称节点)
Secondarynode:第二名称节点
Datanode: 数据存储节点

Client:
切分文件(128M);
访问HDFS;
与NameNode交互,获取文件位置信息;
与DateNode交互,读取和写入数据;

NameNode:
Master节点,管理HDFS的名称空间和数据块映射信息,配置副本策略(数据存储位置和份数),处理所有客户端请求;

Secondary NameNode:
定期合并fsimage和fsedits(名称空间和数据块映射信息),推送给NameNode;
紧急情况下,可辅助回复NameNode;
但Secondary NameNode并非NameNode的热备;

DateNode:
数据存储节点,存储实际的数据;
汇报Client存储信息给NameNode;

Block:
每块缺省128MB大小,可以多个副本;

2.6 MapReduce结构

在这里插入图片描述

2.7 MapReduce角色及概念

源自与Google的MapReduce论文,Java实现的分布式计算框架.
角色和概念:JobTracker,TaskTracker,Map Task,Reducer Task.
JobTracker:
Master节点只有一个;
管理所有作业/任务的监控,错误处理等;
将任务分解成一系列任务,并分派给TaskTracker.

TaskTracker:
Slave节点,一般是多台;
运行Map Task和Reduce Task;
并与JobTracker交互,汇报任务状态.

Map Task:
解析每条数据记录,传递给用户编写的map()并执行,将输出结果写入本地磁盘;
如果为map-only作业,直接写入HDFS;

Reducer Task:
从Map Task的执行结果中,远程读取输入数据,对数据进行排序,将数据按照分组传递给用户编写的reducer函数执行;

2.8 Yarn结构

在这里插入图片描述

2.9 Yarn角色及概念

Yarn是Hadoop的一个通用的资源管理系统;
Yarn角色:
Resourcemanager
Nodemanager
ApplicationMaster
Container
Client

ResourceManager:
处理客户端请求;
启动/监控ApplicationMaster;
监控NodeManager;
资源分配与调度;

NodeManager:
单个节点上的资源管理;
处理来自ResourceManager的命令;
处理来自ApplicationMaster的命令;

Container:
对任务运行环境的抽象,封装了CPU,内存等;
多维资源以及环境变量,启动命令等任务运行相关的信息资源分配与调度;

ApplicationMaster:
数据切分;
为应用程序申请资源,并分配给内部任务;
任务监控与容错;

Clietn:
用户与Yarn交互的客户端程序;
提交应用程序,监控应用程序状态,沙溪应用程序等;

Yarn的核心思想:
将JobTracker和TaskTacker进行分离,它有下面几大构成组件:
ResourceManager一个全局的资源管理器;
NodeManager每个节点(RM)代理;
ApplicationMaster表示每个应用;
每一个ApplicationMaster有多个Container在NodeManager上运行.

三.Hadoop安装与配置

1. Hadoop介绍

1.1 Hadoop模式

Hadoop的部署模式有三种:
单机
伪分布式
完全分布式

1.2 单机模式

Hadoop的单机模式安装非常简单,单需要配置Java环境,安装jps工具.
1.获取软件:http://hadoop.apache.org
2.安装openjdk和openjdk-devel
3.设置环境变量,启动运行
4.hadoop-env.sh

JAVA_HOME="JAVA安装路径"
HADOOP_CONF_DIR="hadoop配置文件路径"

Hadoop的单机模式安装很简单,只需配置好环境变量即可运行,这个模式一般用来学习和测试Hadoop的功能.例如测试统计词频:

# cd /usr/local/hadoop
# mkdir input
# cp *.txt input/
# ./bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar wordcount input output
#

1.3 伪分布式

伪分布式的安装和完全分布式类似,区别是所有角色安装在一台机器上,使用本地磁盘,一般生产环境都会使用完全分布式,伪分布式一般是用来学习和测试Hadoop的功能;

伪分布式的配置和完全分布式配置类似;

1.4 Hadoop配置文件及格式

Hadoop-env.sh
JAVA_HOME
HADOOP_CONF_DIR
-xml文件配置格式

<property>
		<property>
		<name>关键字</name>
		<value>变量值</value>
		<description>描述</description>
		</property>
</property>

四.HDFS

1.HDFS分布式文件系统

1.1 完全分布式

系统规划

主机	角色	软件
192.168.1.60 nn01	NameNode / SecondaryNameNode	HDFS
192.168.1.61 node1	DataNode	HDFS
192168.1.62 node2	DataNode	HDFS
192.168.1.63 node3	DateNode	HDFS

1.2 搭建完全分布式

环境准备
1.基础环境准备
新开启3台虚拟机,配置ip地址,yum源;
禁用SELinux:SELINUX=disabled
禁用firewalld:

# systemctl stop firewalld
# systemctl mask firewalld

4.安装java-1.8.0-openjdk-devel,在node1,node2,node3上

[root@node1 ~]# yum -y install java-1.8.0-openjdk-devel

5.在3台机器上配置/etc/hosts,所有主机都能ping通namenode的主机名,namenode能ping通所有节点;
java -version 验证java安装;
jps 验证角色;

[root@nn01 ~]# vim /etc/hosts
192.168.1.60  nn01
192.168.1.61  node1
192.168.1.62  node2
192.168.1.63  node3

6.配置SSH信任关系(NameNode)
不能出现要求输入yes的情况,每台机器都要能登录成功,包括本机!!!
修改配置文件:/etc/ssh/ssh_config
StrictHostKeyChecking no
创建秘钥对

[root@nn01 ~]# vim /etc/ssh/ssh_config    //第一次登陆不需要输入yes
Host *
        GSSAPIAuthentication yes
        StrictHostKeyChecking no
[root@nn01 .ssh]# ssh-keygen
Generating public/private rsa key pair.
Enter file in which to save the key (/root/.ssh/id_rsa): 
Enter passphrase (empty for no passphrase): 
Enter same passphrase again: 
Your identification has been saved in /root/.ssh/id_rsa.
Your public key has been saved in /root/.ssh/id_rsa.pub.
The key fingerprint is:
SHA256:Ucl8OCezw92aArY5+zPtOrJ9ol1ojRE3EAZ1mgndYQM root@nn01
The key's randomart image is:
+---[RSA 2048]----+
|        o*E*=.   |
|         +XB+.   |
|        ..=Oo.   |
|        o.+o...  |
|       .S+.. o   |
|        + .=o    |
|         o+oo    |
|        o+=.o    |
|        o==O.    |
+----[SHA256]-----+
[root@nn01 .ssh]# for i in 60 61 62 63 ; do  ssh-copy-id  192.168.1.$i; done   
//部署公钥给nn01，node1，node2，node3

测试信任关系:

[root@nn01 .ssh]# ssh node1
Last login: Fri Sep  7 16:52:00 2018 from 192.168.1.60
[root@node1 ~]# exit
logout
Connection to node1 closed.
[root@nn01 .ssh]# ssh node2
Last login: Fri Sep  7 16:52:05 2018 from 192.168.1.60
[root@node2 ~]# exit
logout
Connection to node2 closed.
[root@nn01 .ssh]# ssh node3

配置Hadoop

HDFS完全分布式系统配置:
环境配置文件:hadoop-env.sh
核心配置文件:core-site.xml
HDFS配置文件:hdfs-site.xml
节点配置文件:slaves
环境配置文件hadoop-env.sh
OpenJDK的安装目录:JAVA_HOME
Hadoop配置文件的存放目录:HADOOP_CONF_DIR
核心配置文件 core-site.xml
fs.defaultFs:文件系统配置参数
hadoop.tmp.dir:数据目录配置参数
HDFS配置文件hdfs-site.xml
Namenode:地址声明: dfs.namenode.http-address
Secondarynamenode:地址声明: dfs.namenode.secondary.http-address
文件冗余份数:dfs.replication(默认为3个副本)
节点配置文件slaves
只写DataNode节点的主机名(删除localhost)

node1
node2
node3

同步配置
Hadoop所有节点的配置参数完全一样,在一台配置好后,把配置文件同步到其他所有主机上.

1.修改slaves文件

[root@nn01 ~]# cd  /usr/local/hadoop/etc/hadoop
[root@nn01 hadoop]# vim slaves
node1
node2
node3

2.hadoop核心配置文件core-site

[root@nn01 hadoop]# vim core-site.xml
<configuration>
<property>
        <name>fs.defaultFS</name>
        <value>hdfs://nn01:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/var/hadoop</value>
    </property>
</configuration>
[root@nn01 hadoop]# mkdir /var/hadoop        //hadoop的数据根目录

3配置hdfs-site文件

[root@nn01 hadoop]# vim hdfs-site.xml
<configuration>
 	<property>
        <name>dfs.namenode.http-address</name>
        <value>nn01:50070</value>
    </property>
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>nn01:50090</value>
    </property>
    <property>
        <name>dfs.replication</name>
        <value>2</value>
    </property>
</configuration>

4.同步配置到node1,node2,node3

 [root@nn01 hadoop]# for i in node1 node2 node3 ;do rsync -aSH --delete /usr/local/hadoop/ $i:/user/local/hadoop/ -e 'ssh' & done
//或: for i in 61 62 63 ;do rsync -aSH --delete /usr/local/hadoop/ $i:/user/local/hadoop/ -e 'ssh' & done
[1] 23260
[2] 23261
[3] 23262

5.查看是否同步成功

[root@nn01 hadoop]# ssh node1 ls /usr/local/hadoop/
bin
etc
include
lib
libexec
LICENSE.txt
NOTICE.txt
output
README.txt
sbin
share
input
[root@nn01 hadoop]# ssh node2 ls /usr/local/hadoop/
bin
etc
include
lib
libexec
LICENSE.txt
NOTICE.txt
output
README.txt
sbin
share
input
[root@nn01 hadoop]# ssh node3 ls /usr/local/hadoop/
bin
etc
include
lib
libexec
LICENSE.txt
NOTICE.txt
output
README.txt
sbin
share
input

格式化

[root@nn01 hadoop]# cd /usr/local/hadoop/
[root@nn01 hadoop]# ./bin/hdfs namenode -format         //格式化 namenode
[root@nn01 hadoop]# ./sbin/start-dfs.sh        //启动
[root@nn01 hadoop]# jps        //验证角色
23408 NameNode
23700 Jps
23591 SecondaryNameNode
[root@nn01 hadoop]# ./bin/hdfs dfsadmin -report        //查看集群是否组建成功
Safe mode is ON
Configured Capacity: 96602099712 (89.97 GB)
Present Capacity: 90877227008 (84.64 GB)
DFS Remaining: 90877214720 (84.64 GB)
DFS Used: 12288 (12 KB)
DFS Used%: 0.00%
Under replicated blocks: 0
Blocks with corrupt replicas: 0
Missing blocks: 0
Missing blocks (with replication factor 1): 0

-------------------------------------------------
Live datanodes (3):        //有三个角色成功

Name: 192.168.1.63:50010 (node3)
Hostname: node3
Decommission Status : Normal
Configured Capacity: 32200699904 (29.99 GB)
DFS Used: 4096 (4 KB)
Non DFS Used: 1908248576 (1.78 GB)
DFS Remaining: 30292447232 (28.21 GB)
DFS Used%: 0.00%
DFS Remaining%: 94.07%
Configured Cache Capacity: 0 (0 B)
Cache Used: 0 (0 B)
Cache Remaining: 0 (0 B)
Cache Used%: 100.00%
Cache Remaining%: 0.00%
Xceivers: 1
Last contact: Thu Oct 17 17:46:28 CST 2019
... ...

疯满的瘦子

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Hadoop Day01

一.大数据大数据介绍1.大数据的由来随着计算机技术的发展,互联网的普及,信息的积累已经到了一个非常庞大的地步,信息的增长也在不断的加快,随着互联网,物联网建设的加快,信息更是爆炸式增长,收集,检索,统计这些信息越发困难,必须使用新的技术来解决这些问题2.什么是大数据大数据的定义:大数据指无法在一定时间范围内用常规软件工具进行捕捉,管理和处理的数据的集合,需要新处理模式才能具有更强的决策...
复制链接

扫一扫