HDFS的Shell操作

本文详细介绍了HadoopHDFS的进程启停管理,包括一键脚本操作以及单进程控制方法。还涵盖了HDFS文件系统的基本信息,如路径表达、命令介绍,包括创建文件夹、查看文件内容、上传下载文件、数据移动和删除等操作。此外,还提到了HDFSshell的其他命令和HDFSWEB浏览器的使用注意事项。
摘要由CSDN通过智能技术生成

目录

一、进程启停管理

(一)一键启停脚本

(二)单进程启停

二、文件系统操作命令

(一)HDFS文件系统基本信息

1.前置介绍

(二)命令介绍

1.新旧版本命令介绍

2.创建文件夹

3.查看指定目录下内容

4.上传文件到HDFS指定目录下

5.查看HDFS文件内容

6.下载HDFS文件

7.拷贝HDFS文件

9.HDFS数据移动操作

10.HDFS数据删除操作

11.HDFS shell其它命令

12.HDFS WEB浏览


一、进程启停管理

(一)一键启停脚本

Hadoop HDFS组件内置了HDFS集群的一键启停脚本。

$HADOOP_HOME/sbin/start-dfs.sh,一键启动HDFS集群

执行原理:

1.在执行此脚本的机器上,启动SecondaryNameNode

2.读取core-site.xml内容(fs.defaultFS项),确认NameNode所在机器,启动NameNode

3.读取workers内容,确认DataNode所在机器,启动全部DataNode

$HADOOP_HOME/sbin/stop-dfs.sh,一键关闭HDFS集群

执行原理:

1.在执行此脚本的机器上,关闭SecondaryNameNode

2.读取core-site.xml内容(fs.defaultFS项),确认NameNode所在机器,关闭NameNode

3.读取workers内容,确认DataNode所在机器,关闭全部NameNode

(二)单进程启停

除了一键启停外,也可以单独控制进程的启停。

1. $HADOOP_HOME/sbin/hadoop-daemon.sh,此脚本可以单独控制所在机器的进程的启停

用法:hadoop-daemon.sh (start|status|stop) (namenode|secondarynamenode|datanode)

2. $HADOOP_HOME/bin/hdfs,此程序也可以用以单独控制所在机器的进程的启停

用法:hdfs --daemon (start|status|stop) (namenode|secondarynamenode|datanode)

二、文件系统操作命令

(一)HDFS文件系统基本信息

1.前置介绍

HDFS文件系统基本信息

HDFS作为分布式存储的文件系统,有其对数据的路径表达方式。

HDFS同Linux系统一样,均是以/作为根目录的组织形式

Linux: /usr/local/hello.txt

HDFS: /usr/local/hello.txt

如何区分呢?

Linux:file:///

HDFS:hdfs://namenode:port/

hdfs://就是hdfs文件系统的协议

namenode主机名 和 通讯端口

如上路径:

Linux:file:///usr/local/hello.txt

HDFS:hdfs://hp1:8020/usr/local/hello.txt

协议头file:/// 或 hdfs://hp1:8020/可以省略

需要提供Linux路径的参数,会自动识别为file://

除非你明确需要写或不写会有BUG,否则一般不用写协议头

(二)命令介绍

1.新旧版本命令介绍

关于HDFS文件系统的操作命令,Hadoop提供了2套命令体系

hadoop命令(老版本用法),用法:hadoop fs [generic options]

hdfs命令(新版本用法),用法:hdfs dfs [generic options]

两者在文件系统操作上,用法完全一致

用哪个都可以

某些特殊操作需要选择hadoop命令或hdfs命令

2.创建文件夹

hadoop fs -mkdir [-p] <path> ...

hdfs dfs -mkdir [-p] <path> ...

path 为待创建的目录

-p选项的行为与Linux mkdir -p一致,它会沿着路径创建父目录。

当前作为hadoop用户,没有权限在linu本地根目录下创建文件,所以路径改为home下的hadoop,这样就在linux本地创建了一个叫test的文件夹,因为我们使用的协议头是file:///

如果你要在整个hadoop中创建,应当这样写:

这样就是创建在我们hdfs里面的

协议头也是可以不用写的,像这样:

3.查看指定目录下内容

hadoop fs -ls [-h] [-R] [<path> ...]

hdfs dfs -ls [-h] [-R] [<path> ...]

path 指定目录路径(你要查看的路径)

-h 人性化显示文件size

-R 递归查看指定目录及其子目录

不带 -R 就只能看到根下面有什么

4.上传文件到HDFS指定目录下

是从Linux到hdfs的过程

hadoop fs -put [-f] [-p] <localsrc> ... <dst>

hdfs dfs -put [-f] [-p] <localsrc> ... <dst>

-f 覆盖目标文件(已存在下)

上传文件有冲突的话可以直接-f覆盖掉

-p 保留访问和修改时间,所有权和权限。

localsrc 本地文件系统(客户端所在机器)

dst 目标文件系统(HDFS)

在hadoop的home目录下创建一个文件夹

里面写上你想写的内容,然后保存退出

这个时候就可以看到我们home目录下面有我们刚刚创建的txt文件

现在我们要把这个文件上传到整个hadoop系统的根目录下面

我们再上传一个

先新建

可以看到本地有了该文件

此次上传不带协议头,可以发现仍旧上传成功

5.查看HDFS文件内容

hadoop fs -cat <src> ...

hdfs dfs -cat <src> ...

读取指定文件全部内容,显示在标准输出控制台。

读取大文件可以使用管道符配合more

hadoop fs -cat <src> | more

hdfs dfs -cat <src> | more

真正的生产环境中,数据量非常大,60GB都有可能,此时用cat看内容是输出不完整的,软件中断容易干崩溃。所以对于大文件来说,我们可以借用linux的管道符,给它一个more命令,more是Linux中对内容进行翻页的命令,然后按空格翻页

hadoop fs -cat /test.txt | more

补充一点:set nu 显示行号

6.下载HDFS文件

下载是hdfs向linux去下载

hadoop fs -get [-f] [-p] <src> ... <localdst>

hdfs dfs -get [-f] [-p] <src> ... <localdst>

下载文件到本地文件系统指定目录,localdst必须是目录

-f 覆盖目标文件(已存在下)

下载文件有冲突的话可以直接-f覆盖掉

-p 保留访问和修改时间,所有权和权限。

首先把我们linux本地的东西都删掉,ll 或者ls 查看会发现没有任何东西

再把hdfs的文件下载到linux本地

7.拷贝HDFS文件

hadoop fs -cp [-f] <src> ... <dst>

hdfs dfs -cp [-f] <src> ... <dst>

-f 覆盖目标文件(已存在下)

 <src>和 <dst>都是hdfs路径,所以这是hdfs对hdfs进行复制

 hadoop fs -cp /test.ext /home/

把test.ext复制到/home里面去

 hadoop fs -cp -f /ayu.ext /home/

-f 即强制覆盖

hadoop fs -cp -f /ayu.ext /home/abc.txt

cp同Linux一样兼具改名的效果,把test.ext复制到/home里面去并改名为abc.txt

8.追加数据到HDFS文件中

hdfs文件系统,还可以完成文件的修改工作。这个修改工作跟linux中的vim不一样,整个hdfs的文件修改只支持两种。第一种是直接删掉,第二种是追加内容。我们整个文件系统,只能够进行删除和追加,不能修改里面某一行或某一个字符。

hadoop fs -appendToFile <localsrc> ... <dst>

hdfs dfs -appendToFile <localsrc> ... <dst>

将所有给定本地文件的内容追加到给定dst文件。

dst如果文件不存在,将创建该文件。

如果<localSrc>为-,则输入为从标准输入中读取。

9.HDFS数据移动操作

hadoop fs -mv <src> ... <dst>

hdfs dfs -mv <src> ... <dst>

移动文件到指定文件夹下

可以使用该命令移动数据,重命名文件的名称

hadoop fs -mv /test.txt /bigdata/

把test.txt移动到/bigdata里面去

同时具有改名效果:

hadoop fs -mv /test.txt /bigdata/abc.txt

把test.txt移动到/bigdata里面并改名为abc.txt

10.HDFS数据删除操作

hadoop fs -rm -r [-skipTrash] URI [URI ...]

hdfs dfs -rm -r [-skipTrash] URI [URI ...]

删除指定路径的文件或文件夹

删文件 -rm

删文件夹 -rm -r

(此图由于网络超时没能传上来,将就看一下)

-skipTrash 跳过回收站,直接删除

回收站功能默认关闭,如果要开启需要在core-site.xml内配置:

<property>

<name>fs.trash.interval</name>

<value>1440</value>

</property>

<property>

<name>fs.trash.checkpoint.interval</name>

<value>120</value>

</property>

配置如下内容:

1440表示回收站的数据能够保留一天

120表示的是分钟,每两小时检查一次,如果超过1440的限制,就彻底清空。

无需重启集群,配置后即刻生效。在哪个机器配置的,在哪个机器执行命令就生效。

回收站默认位置在:/user/用户名(hadoop)/.Trash

11.HDFS shell其它命令

命令官方指导文档

Apache Hadoop 3.3.4 – Overview

12.HDFS WEB浏览

除了使用命令操作HDFS文件系统外,在HDFS的WEB UI上也可以查看HDFS文件系统的内容。

使用WEB浏览操作文件系统,一般会遇到权限问题

这是因为WEB浏览器中是以匿名用户(dr.who)登陆的,其只有只读权限,多数操作是做不了的。

如果需要以特权用户在浏览器中进行操作,需要配置如下内容到core-site.xml并重启集群

  <property>

    <name>hadoop.http.staticuser.user</name>

    <value>hadoop</value>

  </property>

但是,不推荐这样做

HDFS WEBUI,只读权限挺好的,简单浏览即可

如果给与高权限,会有很大的安全问题,造成数据泄露或丢失

  • 9
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: HDFS ShellHadoop分布式文件系统中的命令行工具,用于管理HDFS中的文件和目录。以下是HDFS Shell常用的一些操作: 1. 列出目录中的文件和子目录:`hdfs dfs -ls <目录路径>` 2. 创建目录:`hdfs dfs -mkdir <目录路径>` 3. 删除目录:`hdfs dfs -rm -r <目录路径>` 4. 上传本地文件到HDFS:`hdfs dfs -put <本地文件路径> <HDFS目录路径>` 5. 下载HDFS文件到本地:`hdfs dfs -get <HDFS文件路径> <本地目录路径>` 6. 合并HDFS文件到本地:`hdfs dfs -getmerge <HDFS目录路径> <本地文件路径>` 7. 复制文件:`hdfs dfs -cp <源文件路径> <目标文件路径>` 8. 移动文件:`hdfs dfs -mv <源文件路径> <目标文件路径>` 9. 查看文件内容:`hdfs dfs -cat <文件路径>` 10. 修改文件权限:`hdfs dfs -chmod <权限> <文件路径>` 以上是HDFS Shell的一些常用操作,可以帮助用户管理Hadoop分布式文件系统中的文件和目录。 ### 回答2: Hadoop分布式文件系统(Hadoop Distributed File System,简称HDFS)是Apache Hadoop的核心组件之一,用于存储和处理大规模数据集。HDFS ShellHadoop提供的基于命令行的操作工具,用于执行文件系统的管理操作HDFS Shell主要提供以下操作: 1. 文件和目录操作: - ls:列出指定目录下的内容。 - mkdir:创建一个新目录。 - rm:删除指定文件或目录。 - mv:将文件或目录移动到新位置。 - chmod:修改文件或目录的权限设置。 2. 文件上传和下载: - put:上传本地文件到HDFS。 - get:将HDFS上的文件下载到本地。 3. HDFS中的文件操作: - cat:打印文件内容。 - tail:打印文件的结尾部分。 - head:打印文件的开头部分。 - du:计算文件或目录的大小。 - count:统计指定目录下文件以及目录的个数。 - checksum:计算文件内容的检验和。 4. 其他操作: - help:列出所有可用命令。 - usage:显示指定命令的使用方法信息。 - exit:退出HDFS Shell。 使用HDFS Shell进行操作时,可以根据需要选择合适的命令来执行对应的操作。例如,使用ls命令可以列出指定目录下的文件和子目录,使用put命令可以上传本地文件到HDFS,使用cat命令可以打印指定文件的内容等。 HDFS Shell操作也可以通过Shell脚本来批量执行,可以更加方便地进行文件系统管理。总的来说,HDFS Shell是一种方便、高效的文件系统操作工具,对于Hadoop用户来说是必不可少的。 ### 回答3: HDFSHadoop 分布式文件系统)是一个由 Apache Hadoop 提供的分布式文件存储系统。HDFS ShellHDFS 文件系统的命令行接口,可以通过命令行终端进行 HDFS 文件系统的操作实现文件的上传、下载、创建等。 HDFS Shell 使用方式如下: 1. 进入 Hadoop 环境,输入命令`hdfs dfs`或`hadoop fs`后,就可以使用 HDFS Shell。 2. 命令格式: ``` hadoop fs [通用选项] [-D <属性>=<值>] <命令> [命令选项] ``` 表示 HDFS Shell 包含的通用选项、属性选项,以及命令和命令选项。 其中,通用选项包括 `-conf`、`-D`、`-fs`、`-jt` 等,这些选项在 Hadoop 的其他模块中也可以使用。 命令包括 `cat`、`cp`、`count`、`get`、`ls`、`mkdir`、`mv`、`put`、`rm`、`rmdir` 等。 命令选项包括 `-skipTrash`、`-skipChecksum`、`-overwrite`、`-recursive` 等。 3. HDFS Shell 常用命令: `ls`:显示 HDFS 目录下的文件和目录。 `mkdir`:在 HDFS 中创建一个新的目录。 `put`:将本地文件或目录上传到 HDFS 文件系统。 `get`:将 HDFS 文件系统中的文件或目录下载到本地。 `rm`:删除 HDFS 文件系统中的文件或目录。 `mv`:将 HDFS 文件系统中的文件或目录移动到另一个位置。 4. HDFS Shell 实例: `hdfs dfs -ls /`:列出 HDFS 根目录下的文件和目录。 `hdfs dfs -mkdir /test`:在 HDFS 中创建一个名为 test 的目录。 `hdfs dfs -put localfile /test`:将本地文件 localfile 上传到 HDFS 的目录 test 中。 `hdfs dfs -get /test/hadoopfile localfile`:将 HDFS 中 test 目录下的文件 hadoopfile 下载到本地的 localfile 中。 `hdfs dfs -rm /test/hadoopfile`:删除 HDFS 中 test 目录下的文件 hadoopfile。 `hdfs dfs -mv /test/hadoopfile /test/newfile`:将 HDFS 中 test 目录下的文件 hadoopfile 移动到 test 目录下的 newfile 中。 综上所述,HDFS Shell 对于 Hadoop 分布式文件系统的管理和维护具有很重要的意义,能够方便地进行文件的上传、下载、删除、创建等操作。此外,HDFS Shell 还支持批量处理和脚本编程,可以方便地实现批量操作,提高操作效率。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值