HDFS概述

Hadoop的核心是HDFS和MapReduce。其中,HDFS是解决海量大数据文件存储的问题,是目前应用最广泛的分布式文件系统。HDFS–>Hadoop Distributed Files System

HDFS 源于 Google 在2003年10月份发表的GFS(Google File System)论文,

HDFS(Hadoop Distributed Filesystem)是一个易于扩展的分布式文件系统,运行在成百上千台低成本的机器上。它与现有的分布式文件系统有许多相似之处,都是用来存储数据的系统工具,而区别于HDFS具有高度容错能力,旨在部署在低成本机器上。HDFS主要用于对海量文件信息进行存储和管理,也就是解决大数据文件(如TB乃至PB级)的存储问题。

HDFS的基本概念

NameNode(名称节点)
NameNode是HDFS集群的主服务器,通常称为名称节点或者主节点。一旦NameNode关闭,就无法访问Hadoop集群。NameNode主要以元数据的形式进行管理和存储,用于维护文件系统名称并管理客户端对文件的访问;NameNode记录对文件系统名称空间或其属性的任何更改操作;HDFS负责整个数据集群的管理,并且在配置文件中可以设置备份数量,这些信息都由NameNode存储。

DataNode(数据节点)
DataNode是HDFS集群中的从服务器,通常称为数据节点。文件系统存储文件的方式是将文件切分成多个数据块,这些数据块实际上是存储在DataNode节点中的,因此DataNode机器需要配置大量磁盘空间。它与NameNode保持不断的通信,DataNode在客户端或者NameNode的调度下,存储并检索数据块,对数据块进行创建、删除等操作,并且定期向NameNode发送所存储的数据块列表。

Block(数据块)
每个磁盘都有默认的数据块大小,这是磁盘进行数据读/写的最小单位,HDFS同样也有块(block)的概念,它是抽象的块,而非整个文件作为存储单元,在Hadoop2.x版本下,默认大小是128M,且备份3份,每个块尽可能地存储于不同的DataNode中。按块存储的好处主要是屏蔽了文件的大小,提供数据的容错性和可用性。

Rack(机架)
Rack是用来存放部署Hadoop集群服务器的机架,不同机架之间的节点通过交换机通信,HDFS通过机架感知策略,使NameNode能够确定每个DataNode所属的机架ID,使用副本存放策略,来改进数据的可靠性、可用性和网络带宽的利用率。

Metadata(元数据)
元数据从类型上分可分三种信息形式,一是维护HDFS文件系统中文件和目录的信息,例如文件名、目录名、父目录信息、文件大小、创建时间、修改时间等;二是记录文件内容存储相关信息,例如文件分块情况、副本个数、每个副本所在的DataNode信息等;三是用来记录HDFS中所有DataNode的信息,用于DataNode管理。

HDFS的特点

随着互联网数据规模的不断增大,对文件存储系统提出了更高的要求,需要更大的容量、好更的性能以及安全性更高的文件存储系统,与传统分布式文件系统一样,HDFS分布式文件系统也是通过计算机网络与节点相连,也有传统分布式文件系统的优点和缺点。

  • 优点
  • 高容错
  • 支持超大文件
  • 流式数据访问
  • 高数据吞吐量
  • 缺点
  • 高延迟
  • 不适合并发写入
  • 不适合小文件存取
HDFS的存储架构

HDFS采用主从架构(Master/Slave架构)。
HDFS集群是由一个NameNode和多个的 DataNode组成
在这里插入图片描述
操作命令 hdfs dfs
在该命令当中有很多是和linux操作系统的命令是相同的

-mkdir  创建目录  举例:hdfs dfs -mkdir /aaa
-p 表示如果父目录不存在 先创建父目录
-ls      查看某个目录
-ls -R   查看某个目录,包含子目录   简写: -lsr
-put      上传数据  hdfs dfs -put data.txt /input      data.txt是linux上的文件
-copyFromLocal   上传数据   hdfs dfs -copyFromLocal data.txt /input
-moveFromLocal   上传数据(相当于 ctrl+x 剪切)
-copyToLocal     下载数据			
-get             下载数据			
-rm    删除目录
-rmr   删除目录(包含子目录)
-cp:  hdfs dfs -cp /input/data.txt /input/data2.txt  路径都是hdfs上的虚拟路径
-text、-cat  查看文件的内容 hdfs dfs -cat /students/student01.txt

管理命令 hdfs dfsadmin

-report: 输出HDFS的报告(Summary)
-safemode: 安全模式

查看所有的命令:
通过以下命令可以查看所有命令,上面的也就不一一列举了

操作命令:hdfs dfs  回车即可
管理命令:hdfs dfsadmin  回车即可
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Modify_QmQ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值