HDFS常用的shell命令

最新推荐文章于 2024-05-11 17:09:39 发布

urban_37

最新推荐文章于 2024-05-11 17:09:39 发布

阅读量308

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/qq_34800258/article/details/115103395

版权

大数据专栏收录该内容

2 篇文章 0 订阅

订阅专栏

HDFS

1.什么是HDFS？

HDFS全名为Hadoop Distributed File System，是一个分布式的文件系统，通过目录树来定位文件，是众多文件系统中的一种。

2.HDFS使用场景？

HDFS使用场景：适合一次写入，多次读出的场景，且不支持文件的修改。

3.HDFS的优点

3.1. 高容错性

（1）数据自动保存多个副本，通过增加副本的形式，提高容错性

（2）某一个副本丢失以后，它会自动恢复

3.2. 适合处理大数据

（1）数据规模：能处理GB，TB甚至PB级别的数据

（2）文件规模：能够处理百万规模以上的文件数量，数量相当之大

3.3. 可构建在廉价机器上

4. HDFS的缺点

4.1. 不适合低延时数据访问

4.2. 无法高效的对大量小文件进行存储

4.3. 不支持并发写入，文件随机修改

4.4. 仅支持数据的追加，不支持数据修改

5. HDFS的组成架构：

在这里插入图片描述

HDFS文件块大小（其设置取决于磁盘传输速率）

HDFS中的文件在物理上是分块存储，块的大小可以通过配置参数dfs.blocksize来规定，

默认大小在hadoop2.x版本中是128M。老版本是64M

寻址时间为传输时间的1%时，是最佳状态。而当前普遍的磁盘传输速率为100M/s,所以：block为100M是最佳的。

6. HDFS的Shell操作

6.1．常用命令实操

（0）启动Hadoop集群（方便后续的测试）

（1）-help 命令：输出这个命令参数

[root@hadoop102 hxl]# hadoop fs -help rm
-rm [-f] [-r|-R] [-skipTrash] <src> ... :
  Delete all files that match the specified file pattern. Equivalent to the Unix
  command "rm <src>"
                                                                                 
  -skipTrash  option bypasses trash, if enabled, and immediately deletes <src>   
  -f          If the file does not exist, do not display a diagnostic message or 
              modify the exit status to reflect an error.                        
  -[rR]       Recursively deletes directories

（2）-ls: 显示目录信息

-lsr :递归显示目录信息

[root@hadoop102 hxl]# hadoop fs -ls /
Found 1 items
-rw-r--r--   3 root supergroup  197657687 2021-03-22 10:47 /hadoop-2.7.2.tar.gz

（3）-mkdir：在HDFS上创建目录

-mkdir -p :创建多级目录

[root@hadoop102 hxl]# hadoop fs -mkdir /user
[root@hadoop102 hxl]# hadoop fs -ls /
Found 2 items
-rw-r--r--   3 root supergroup  197657687 2021-03-22 10:47 /hadoop-2.7.2.tar.gz
drwxr-xr-x   - root supergroup          0 2021-03-22 17:30 /user

（4）-moveFromLocal：从本地剪切粘贴到HDFS

[root@hadoop100 module]# hadoop fs -moveFromLocal banzhang.txt /user/hxl/306

在这里插入图片描述

（5）-appendToFile：追加一个文件到已经存在的文件末尾

[root@hadoop100 module]# hadoop fs -appendToFile  zhuijia.txt /user/hxl/306/banzhang.txt

（6）-cat：显示文件内容

[root@hadoop100 bin]# hadoop fs -cat /user/hxl/306/banzhang.txt
hi this is girl

（7）-chgrp 、-chmod、-chown同Linux文件系统中的用法一样

[root@hadoop100 bin]# hadoop fs -chgrp hxl /user/hxl/306/banzhang.txt

（8）-copyFromLocal：从本地文件系统中拷贝文件到HDFS路径去

[root@hadoop100 module]# hadoop fs -copyFromLocal zhuijia.txt /user/hxl/306/

（9）-copyToLocal：从HDFS拷贝到本地

[root@hadoop100 module]# ll
总用量 0
drwxr-xr-x. 15 hxl hxl 231 3月  17 18:02 hadoop-2.7.2
drwxr-xr-x.  8 hxl hxl 255 7月  22 2017 jdk1.8.0_144
[root@hadoop100 module]# hadoop fs -copyToLocal /user/hxl/306/zhuijia.txt /opt/module/
[root@hadoop100 module]# ll
总用量 4
drwxr-xr-x. 15 hxl  hxl  231 3月  17 18:02 hadoop-2.7.2
drwxr-xr-x.  8 hxl  hxl  255 7月  22 2017 jdk1.8.0_144
-rw-r--r--.  1 root root  16 3月  22 17:44 zhuijia.txt

（10）-cp ：从HDFS的一个路径拷贝到HDFS的另一个路径

[root@hadoop100 module]# hadoop fs -cp /user/hxl/306/banzhang.txt /user/hxl/

（11）-mv：在HDFS目录中移动文件

[root@hadoop100 module]# hadoop fs -mv /user/hxl/306/zhuijia.txt /user/hxl/

（12）-get：等同于copyToLocal，就是从HDFS下载文件到本地

drwxr-xr-x. 15 hxl  hxl  231 3月  17 18:02 hadoop-2.7.2
drwxr-xr-x.  8 hxl  hxl  255 7月  22 2017 jdk1.8.0_144
-rw-r--r--.  1 root root  16 3月  22 17:44 zhuijia.txt
[root@hadoop100 module]# hadoop fs -get /user/hxl/banzhang.txt /opt/module/
[root@hadoop100 module]# ll
总用量 8
-rw-r--r--.  1 root root  16 3月  22 17:46 banzhang.txt
drwxr-xr-x. 15 hxl  hxl  231 3月  17 18:02 hadoop-2.7.2
drwxr-xr-x.  8 hxl  hxl  255 7月  22 2017 jdk1.8.0_144
-rw-r--r--.  1 root root  16 3月  22 17:44 zhuijia.txt

（13）-getmerge：合并下载多个文件

# 将zhuijia.txt和banzhang.txt合并下载， 并命名为log.txt,下载到本地的/opt/module目录下
[root@hadoop100 module]# hadoop fs -getmerge /user/hxl/zhuijia.txt /user/hxl/banzhang.txt /opt/module/log.txt

（14）-put：等同于copyFromLocal

[root@hadoop100 module]# hadoop fs -put log.txt /user/hxl/

（15）-tail：显示一个文件的末尾

[root@hadoop100 module]# hadoop fs -tail /user/hxl/log.txt
hi this is girl
hi this is girl

（16）-rm：删除文件或文件夹

[root@hadoop100 module]# hadoop fs -rm -f -R /user/hxl/306
21/03/22 17:51:11 INFO fs.TrashPolicyDefault: Namenode trash configuration: Deletion interval = 0 minutes, Emptier interval = 0 minutes.
Deleted /user/hxl/306

（17）-rmdir：删除空目录

[root@hadoop100 module]# hadoop fs -rmdir /user/hxl/testEmptyDir

（18）-du统计文件夹的大小信息

[root@hadoop100 module]# hadoop fs -du /user/hxl
16  /user/hxl/banzhang.txt
32  /user/hxl/log.txt
16  /user/hxl/zhuijia.txt

（19）-setrep：单独设置HDFS中指定文件的副本数量

[root@hadoop100 module]# hadoop fs -setrep 2 /user/hxl/log.txt
Replication 2 set: /user/hxl/log.txt

注意： 这里设置的副本数只是记录在NameNode的元数据中。是否真的会有这么多副本，还得取决于实际DataNode的数量。如果只有3台设备，最多也就3个副本，只有节点数的增加到10台时，副本数才能达到10。

urban_37

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
HDFS常用的shell命令

HDFS1.什么是HDFS？HDFS全名为Hadoop Distributed File System，是一个分布式的文件系统，通过目录树来定位文件，是众多文件系统中的一种。2.HDFS使用场景？HDFS使用场景：适合一次写入，多次读出的场景，且不支持文件的修改。3.HDFS的优点3.1. 高容错性（1）数据自动保存多个副本，通过增加副本的形式，提高容错性（2）某一个副本丢失以后，它会自动恢复3.2. 适合处理大数据（1）数据规模：能处理GB，TB甚至PB级别的数据（2）文件规模：能够
复制链接

扫一扫

专栏目录