【Hadoop】HDFS shell操作与管理工具

HDFS shell操作

HDFS 是存取数据的分布式文件系统,对 HDFS 的操作就是文件系统的基本操作,如文件的创建、修改、删除、修改权限,目录的创建、删除、重命名等。对 HDFS 的操作命令类似于 Linux 的 shell对文件的操作,如 ls、mkdir、rm 等。

所有的 FS shell 命令使用 URI 路径作为参数,URI 格式是 scheme://authority/path。对 HDFS 文件系统,scheme 是 hdfs, 对本地文件系统,scheme 是 file. 其中 scheme 和authority 参数都是可选的,如果 scheme 未加指定,就会使用配置中指定的默认 scheme 值。

一个HDFS文件或目录比如 /parent/child 可以表示成 hdfs://namenode:namenodeport/parent/child ,或者更简单的 /parent/child (假设你配置文件中的默认值是 namenode:namenodeport )。大多数FS Shell命令的行为和对应的Linux Shell命令类似,不同之处会在下面介绍各命令使用详情时指出。出错信息会输出到 stderr ,其他信息输出到 stdout

对于路径的说明包括 hdfs 路径和 Linux 路径,如果没有明确指出,默认是 hdfs路径

比如:

  • hadoop fs命令可显示当前 Hadoop 版本所支持的命令:在这里插入图片描述

  • hadoop fs -ls /。由于没有说明路径是Linux路径还是hdfs路径,默认就是hdfs路径:在这里插入图片描述

  • hadoop fs -put <多个 linux 上的文件> <hdfs 路径>从Linux本地文件系统上传(复制)文件到hdfs文件系统

  • hadoop fs -touchz 创建空白文件

  • hadoop fs -get <hdfs 路径> < linux 路径> 可以复制 hdfs 文件到本地文件系统


HDFS管理工具

dfsadmin

hdfs dfsadmin命令可以获取 HDFS 的状态信息,也可以在 HDFS 上执行的一系列管理操作。这个命令还有一系列参数可以选择。比如:

  • -help:帮助信息

  • -report:查看文件系统的基本信息和统计信息

  • -refreshNodes:重新读取 hosts 和 exclude 文件,使新的节点或需要退出集群的节点能够被 NameNode 重新识别。这个命令在新增节点或注销节点时用到

fsck

hadoop fsck file 命令用来检验 HDFS 中的文件是否正常可用。该工具可以检测文件块是否从 DataNode 中丢失,是否低于或高于文件副本要求。

比如:

在这里插入图片描述

fsck命令有一些选项可以选择,比如:

  • -files:显示文件的名称、大小、块数量及是否可用
  • -blocks:显示每个块在文件中的信息,一个块用一行显示
  • -racks:展示了每个块所处的机架位置及 DataNode 的位置

均衡器

随着时间推移,各个 datanode 上的块分布会越来越不均衡。不均衡的集群会降低数据应用的本地性,导致部分 datanode 相对更加繁忙。应避免出现这种情况。

均衡器(balancer)程序是一个 Hadoop 守护进程,它将块从忙碌的 datanode 移到相对空闲的 datanode,从而重新分配块。同时坚持块副本放置策略,将副本分散到不同机架,以降低数据损坏率。它不断移动块,直到集群达到均衡的状态,即每个 datanode 的使用率和集群的使用率非常接近,差距不超过给定的阈值。可以通过以下命令启动均衡器:% start-balancer.sh

  • 22
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: HDFS ShellHadoop分布式文件系统中的命令行工具,用于管理HDFS中的文件和目录。以下是HDFS Shell常用的一些操作: 1. 列出目录中的文件和子目录:`hdfs dfs -ls <目录路径>` 2. 创建目录:`hdfs dfs -mkdir <目录路径>` 3. 删除目录:`hdfs dfs -rm -r <目录路径>` 4. 上传本地文件到HDFS:`hdfs dfs -put <本地文件路径> <HDFS目录路径>` 5. 下载HDFS文件到本地:`hdfs dfs -get <HDFS文件路径> <本地目录路径>` 6. 合并HDFS文件到本地:`hdfs dfs -getmerge <HDFS目录路径> <本地文件路径>` 7. 复制文件:`hdfs dfs -cp <源文件路径> <目标文件路径>` 8. 移动文件:`hdfs dfs -mv <源文件路径> <目标文件路径>` 9. 查看文件内容:`hdfs dfs -cat <文件路径>` 10. 修改文件权限:`hdfs dfs -chmod <权限> <文件路径>` 以上是HDFS Shell的一些常用操作,可以帮助用户管理Hadoop分布式文件系统中的文件和目录。 ### 回答2: Hadoop分布式文件系统(Hadoop Distributed File System,简称HDFS)是Apache Hadoop的核心组件之一,用于存储和处理大规模数据集。HDFS ShellHadoop提供的基于命令行的操作工具,用于执行文件系统的管理操作HDFS Shell主要提供以下操作: 1. 文件和目录操作: - ls:列出指定目录下的内容。 - mkdir:创建一个新目录。 - rm:删除指定文件或目录。 - mv:将文件或目录移动到新位置。 - chmod:修改文件或目录的权限设置。 2. 文件上传和下载: - put:上传本地文件到HDFS。 - get:将HDFS上的文件下载到本地。 3. HDFS中的文件操作: - cat:打印文件内容。 - tail:打印文件的结尾部分。 - head:打印文件的开头部分。 - du:计算文件或目录的大小。 - count:统计指定目录下文件以及目录的个数。 - checksum:计算文件内容的检验和。 4. 其他操作: - help:列出所有可用命令。 - usage:显示指定命令的使用方法信息。 - exit:退出HDFS Shell。 使用HDFS Shell进行操作时,可以根据需要选择合适的命令来执行对应的操作。例如,使用ls命令可以列出指定目录下的文件和子目录,使用put命令可以上传本地文件到HDFS,使用cat命令可以打印指定文件的内容等。 HDFS Shell操作也可以通过Shell脚本来批量执行,可以更加方便地进行文件系统管理。总的来说,HDFS Shell是一种方便、高效的文件系统操作工具,对于Hadoop用户来说是必不可少的。 ### 回答3: HDFSHadoop 分布式文件系统)是一个由 Apache Hadoop 提供的分布式文件存储系统。HDFS ShellHDFS 文件系统的命令行接口,可以通过命令行终端进行 HDFS 文件系统的操作,实现文件的上传、下载、创建等。 HDFS Shell 使用方式如下: 1. 进入 Hadoop 环境,输入命令`hdfs dfs`或`hadoop fs`后,就可以使用 HDFS Shell。 2. 命令格式: ``` hadoop fs [通用选项] [-D <属性>=<值>] <命令> [命令选项] ``` 表示 HDFS Shell 包含的通用选项、属性选项,以及命令和命令选项。 其中,通用选项包括 `-conf`、`-D`、`-fs`、`-jt` 等,这些选项在 Hadoop 的其他模块中也可以使用。 命令包括 `cat`、`cp`、`count`、`get`、`ls`、`mkdir`、`mv`、`put`、`rm`、`rmdir` 等。 命令选项包括 `-skipTrash`、`-skipChecksum`、`-overwrite`、`-recursive` 等。 3. HDFS Shell 常用命令: `ls`:显示 HDFS 目录下的文件和目录。 `mkdir`:在 HDFS 中创建一个新的目录。 `put`:将本地文件或目录上传到 HDFS 文件系统。 `get`:将 HDFS 文件系统中的文件或目录下载到本地。 `rm`:删除 HDFS 文件系统中的文件或目录。 `mv`:将 HDFS 文件系统中的文件或目录移动到另一个位置。 4. HDFS Shell 实例: `hdfs dfs -ls /`:列出 HDFS 根目录下的文件和目录。 `hdfs dfs -mkdir /test`:在 HDFS 中创建一个名为 test 的目录。 `hdfs dfs -put localfile /test`:将本地文件 localfile 上传到 HDFS 的目录 test 中。 `hdfs dfs -get /test/hadoopfile localfile`:将 HDFS 中 test 目录下的文件 hadoopfile 下载到本地的 localfile 中。 `hdfs dfs -rm /test/hadoopfile`:删除 HDFS 中 test 目录下的文件 hadoopfile。 `hdfs dfs -mv /test/hadoopfile /test/newfile`:将 HDFS 中 test 目录下的文件 hadoopfile 移动到 test 目录下的 newfile 中。 综上所述,HDFS Shell 对于 Hadoop 分布式文件系统的管理和维护具有很重要的意义,能够方便地进行文件的上传、下载、删除、创建等操作。此外,HDFS Shell 还支持批量处理和脚本编程,可以方便地实现批量操作,提高操作效率。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

不怕娜

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值