HDFS之基本概念及shell操作

RomanyK

已于 2022-04-13 20:46:28 修改

阅读量1.4k

点赞数

分类专栏：从0开始的大数据Hadoop生态圈进阶之路 # 大数据Hadoop--HDFS 文章标签： big data hdfs hadoop 大数据

于 2022-04-13 20:31:41 首次发布

本文链接：https://blog.csdn.net/qq_46099176/article/details/124144427

版权

从0开始的大数据Hadoop生态圈进阶之路同时被 2 个专栏收录

9 篇文章 2 订阅

订阅专栏

大数据Hadoop--HDFS

8 篇文章 2 订阅

订阅专栏

一些概念性的东西往往是枯燥无味的，所以本文以最大化简洁的语言来理解HDFS的基本概念

1.HDFS前言

1.1设计思想（分而治之）

分而治之：将大文件、大批量文件，分布式存储放在大量服务器上，以便于采取分而治之的方式对海量数据进行运算分析；

1.2在大数据系统中的作用

为各类分布式预算框架（如：MapReduce、spark…）提供数据存储服务

1.3重点概念

1.3.1文件切块

1.3.2副本存放

1.3.3元数据

2.HDFS概念简述及特性

2.1HDFS是一个文件系统

用于存储文件，通过统一的命名空间——目录树来定位文件

2.2HDFS是分布式的

由很多服务器联合起来实现其功能，集群中的服务器有各自的角色

2.3HDFS的重要特性

（1）HDFS中的文件在物理上是分块存储（block），块的大小可以通过配置参数( dfs.blocksize)来规定，默认大小在hadoop2.x版本中是128M，hadoop1.x老版本中是64M；
（2）HDFS文件系统会给客户端提供一个统一的抽象目录树，客户端通过路径来访问文件
（3）目录结构及文件分块信息(元数据)的管理由namenode节点承担,namenode是HDFS集群主节点，负责维护整个hdfs文件系统的目录树，以及每一个路径（文件）所对应的block块信息（block的id，及所在的datanode服务器）
（4）文件的各个block的存储管理由datanode节点承担,datanode是HDFS集群从节点，每一个block都可以在多个datanode上存储多个副本（副本数量也可以通过参数设置dfs.replication）
（5）HDFS是设计成适应一次写入，多次读出的场景，且不支持文件的修改(不支持从中间插入数据，支持追加)
注意：HDFS适合用来做数据分析，并不适合用来做网盘应用，因为，不便修改，延迟大，网络开销大，成本太高

3.HDFS的shell（命令行客户端）操作

3.1HDFS命令行客户端使用

HDFS提供shell命令行客户端，使用方法如下：

hadoop fs -具体的执行命令 hdfs路径

3.2命令行客户端支持的命令参数

3.3常用命令参数介绍

Shell客户端启动 Hadoop fs hdfs dfs

hdfs -help

在这里插入图片描述

功能：输出这个命令参数手册

[-appendToFile … ]
[-cat [-ignoreCrc] …]
[-checksum …]
[-chgrp [-R] GROUP PATH…]
[-chmod [-R] <MODE[,MODE]… | OCTALMODE> PATH…]
[-chown [-R] [OWNER][:[GROUP]] PATH…]
[-copyFromLocal [-f] [-p] … ]
[-copyToLocal [-p] [-ignoreCrc] [-crc] … ]
[-count [-q] …]
[-cp [-f] [-p] … ]
[-createSnapshot []]
[-deleteSnapshot ]
[-df [-h] [ …]]
[-du [-s] [-h] …]
[-expunge]
[-get [-p] [-ignoreCrc] [-crc] … ]
[-getfacl [-R] ]
[-getmerge [-nl] ]
[-help [cmd …]]
[-ls [-d] [-h] [-R] [ …]]
[-mkdir [-p] …]
[-moveFromLocal … ]
[-moveToLocal ]
[-mv … ]
[-put [-f] [-p] … ]
[-renameSnapshot ]
[-rm [-f] [-r|-R] [-skipTrash] …]
[-rmdir [–ignore-fail-on-non-empty] (dir)…]
[-setfacl [-R] [{-b|-k} {-m|-x <acl_spec>} ]|[–set <acl_spec> ]]
[-setrep [-R] [-w] …]
[-stat [format] …]
[-tail [-f] ]
[-test -[defsz] ]
[-text [-ignoreCrc] …]
[-touchz …]
[-usage [cmd …]]