HDFS文件系统

本文介绍了HDFS,一种为大数据存储而设计的分布式文件系统,包括其特点(如容错性、扩展性)、架构(Namenode和Datanode)、副本机制以及常用的Shell命令,如cp、cat、put和get。
摘要由CSDN通过智能技术生成

1.HDFS的概述

  在现代的企业环境中,单机容量往往无法存储大量数据,需要跨机器存储。统一管理分布在集群上的文件系统称为分布式文件系统 。
  HDFS( Hadoop Distributed File System )是 Apache Hadoop 项目的一个子项目 . Hadoop 非常适于存储大型 数据 ( 比如 TB PB), 其就是使用 HDFS 作为存储系统 . HDFS 使用多台计算机存储文件 , 并且提供统一的访问接口 , 像是访问一个普通文件系统一样使用分布式文件系统.
   分布式文件系统解决的问题就是大数据存储。它们是横跨在多台计算机上的存储系统。分布式文件系统在大数据 时代有着广泛的应用前景,它们为存储和处理超大规模数据提供所需的扩展能力。

2.HDFS的特点

1.  HDFS 文件系统可存储超大文件,时效性稍差。
2.  HDFS 具有硬件故障检测和自动快速恢复功能。
3.  HDFS 为数据存储提供很强的扩展能力。
4.  HDFS 存储一般为一次写入,多次读取,只支持追加写入,不支持随机修改。
5.  HDFS 可在普通廉价的机器上运行。

3.HDFS的架构

HDFS 采用 Master/Slave 架构
一个 HDFS 集群有两个重要的角色,分别是 Namenode Datanode
HDFS 的四个基本组件 : HDFS Client NameNode DataNode Secondary NameNode

4.HDFS的副本机制

HDFS被设计成能够在一个大集群中跨机器可靠地存储超大文件。它将每个文件存储成一系列的数据块,这个数据块
被称为block,除了最后一个,所有的数据块都是同样大小的。
hdfs 默认文件 :https://hadoop.apache.org/docs/r3.3.4/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml
为了容错,文件的所有block都会有副本。每个文件的数据块大小和副本系数都是可配置的。
hadoop 当中, 文件的 block 块大小默认是 128M(134217728字节)。

5.HDFS的Shell命令

1.cp命令
作用:将文件拷贝到目标路径中
格式: hadoop fs -cp <src> <dst>
2.cat命令
作用: 将参数所指示的文件内容输出到控制台
格式: hadoop fs -cat <filepath>
3. put命令
作用 : 将单个的源文件或者多个源文件srcs从本地文件系统上传到目标文件系统中。
格式 : hadoop fs -put <localsrc > ... <dst>
4. get命令
作用: 将HDFS文件拷贝到本地文件系统。
格式 : hadoop fs -get <src> <localdst>
  • 10
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

毛毛莫名

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值