HDFS文件系统操作命令,以及HDFS WEB浏览

HDFS文件系统基本信息

HDFS作为分布式存储的文件系统,有其对数据的路径表达方式。

HDFS同Linux系统一样,均是以/作为根目录的组织形式

 Linux:    /usr/local/hello.txt

HDFS:    /usr/local/hello.txt

 如何区分呢?

Linux:file:///

HDFS:hdfs://namenode:port/

如上路径: Linux:file:///usr/local/hello.txt

                   HDFS:hdfs://node1:8020/usr/local/hello.txt

 协议头file:/// 或 hdfs://node1:8020/可以省略

需要提供Linux路径的参数,会自动识别为file://

需要提供HDFS路径的参数,会自动识别为hdfs://

除非你明确需要写或不写会有BUG,否则一般不用写协议头

 文件系统操作命令介绍

 关于HDFS文件系统的操作命令,Hadoop提供了2套命令体系

hadoop命令(老版本用法),用法:hadoop fs [generic options]

 hdfs命令(新版本用法),用法:hdfs dfs [generic options]

 两者在文件系统操作上,用法完全一致 用哪个都可以 ,某些特殊操作需要选择hadoop命令或hdfs命令,自行选择。

1、创建文件夹

hadoop fs -mkdir [-p] <path> ... 

 hdfs dfs -mkdir [-p] <path> ...

 path 为待创建的目录     -p 选项的行为与Linux mkdir -p一致,它会沿着路径创建父目录。

 

 2、查看指定目录下内容

 hadoop fs -ls [-h] [-R] [<path> ...]

hdfs dfs -ls [-h] [-R] [<path> ...] 

 path 指定目录路径     -h 人性化显示文件size     -R 递归查看指定目录及其子目录

 3、上传文件到HDFS指定目录下

 hadoop fs -put [-f] [-p] <localsrc> ... <dst>

hdfs dfs -put [-f] [-p] <localsrc> ... <dst>

 -f 覆盖目标文件(已存在下)     -p 保留访问和修改时间,所有权和权限。     localsrc 本地文件系统(客户端所在机器)     dst 目标文件系统(HDFS)

 4、查看HDFS文件内容

 hadoop fs -cat <src> ...

hdfs dfs -cat <src> ...

 读取大文件可以使用管道符配合more

hadoop fs -cat <src> | more

hdfs dfs -cat <src> | more

 5、下载HDFS文件

 hadoop fs -get [-f] [-p] <src> ... <localdst>

hdfs dfs -get [-f] [-p] <src> ... <localdst>

 下载文件到本地文件系统指定目录,localdst必须是目录        

-f 覆盖目标文件(已存在下)         -p 保留访问和修改时间,所有权和权限。

6、拷贝HDFS文件 

 hadoop fs -cp [-f] <src> ... <dst>

hdfs dfs -cp [-f] <src> ... <dst>

 -f 覆盖目标文件(已存在下)

 7、追加数据到HDFS文件中

 hadoop fs -appendToFile <localsrc> ... <dst>

hdfs dfs -appendToFile <localsrc> ... <dst>

将所有给定本地文件的内容追加到给定dst文件。         dst如果文件不存在,将创建该文件。         如果<localSrc>为-,则输入为从标准输入中读取。 

 8、HDFS数据移动操作

 hadoop fs -mv <src> ... <dst>

hdfs dfs -mv <src> ... <dst>    

 移动文件到指定文件夹下         可以使用该命令移动数据,重命名文件的名称

9、HDFS数据删除操作

 hadoop fs -rm -r [-skipTrash] URI [URI ...]

hdfs dfs -rm -r [-skipTrash] URI [URI ...]            

删除指定路径的文件或文件夹         -skipTrash 跳过回收站,直接删除

 回收站功能默认关闭,如果要开启需要在core-site.xml内配置:

<property>

        <name>fs.trash.interval</name>

        <value>1440</value>

</property>  

<property>

        <name>fs.trash.checkpoint.interval</name>

        <value>120</value>

</property>

无需重启集群,在哪个机器配置的,在哪个机器执行命令就生效。

回收站默认位置在:/user/用户名(hadoop)/.Trash

 HDFS shell其它命令

命令官方指导文档点这里icon-default.png?t=N7T8http:// https://hadoop.apache.org/docs/r3.3.4/hadoop-project-dist/hadoop-common/FileSystemShell.html 

 

 常见的操作自己最好能够记住,其他操作可以根据需要查询文档使用。

HDFS WEB浏览 

除了使用命令操作HDFS文件系统外,在HDFS的WEB UI上也可以查看HDFS文件系统的内容。 

 

 使用WEB浏览操作文件系统,一般会遇到权限问题

 

 这是因为WEB浏览器中是以匿名用户(dr.who)登陆的,其只有只读权限,多数操作是做不了的。 如果需要以特权用户在浏览器中进行操作

需要配置如下内容到core-site.xml并重启集群

value填启动hdfs的用户

 <property>    

        <name>hadoop.http.staticuser.user</name>     

        <value>hadoop</value>  

</property>

 但是,不推荐这样做 HDFS WEBUI,只读权限挺好的,简单浏览即可 如果给与高权限,会有很大的安全问题,造成数据泄露或丢失

补充:

副本和block的配置 以及上传文件,已有文件的副本数设置命令 查看文件block的相关命令icon-default.png?t=N7T8http://t.csdnimg.cn/ZhFFy

  • 9
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
HDFSHadoop Distributed File System)是Apache Hadoop生态系统中的一部分,是一个分布式文件系统,用于存储和管理大规模数据集。HDFS旨在运行在低成本硬件上,并具有高容错性、高可扩展性和高吞吐量等优点。Python是一种流行的编程语言,可以用于操作HDFS系统文件。 Python操作HDFS系统文件的背景: 随着大数据技术的发展,越来越多的企业和组织开始使用HadoopHDFS来存储和管理大规模数据集。而Python作为一种广泛使用的编程语言,对于许多数据科学家和工程师来说是必不可少的工具。因此,Python操作HDFS系统文件的需求也越来越大。 Python操作HDFS系统文件的研究意义: 1. 提高工作效率:使用Python操作HDFS系统文件可以帮助数据科学家和工程师更快地处理和管理大规模数据集,提高工作效率。 2. 扩展应用场景:Python的广泛应用和HDFS的高可扩展性使得Python操作HDFS系统文件的应用场景更加广泛,可以应用于各种类型的数据处理和分析。 3. 降低技术门槛:使用Python操作HDFS系统文件可以降低技术门槛,使得更多的人可以轻松地处理和管理大规模数据集。 4. 促进技术创新:Python操作HDFS系统文件的应用可以促进技术创新,鼓励开发人员开发更多的工具和库来简化数据处理和管理。 总之,Python操作HDFS系统文件是一个有意义的研究方向,可以帮助我们更好地处理和管理大规模数据集,促进数据科学和工程的发展。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小智学习

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值