Hadoop Shell操作

hadoop shell操作


相关知识

调用文件系统(FS)Shell命令应使用 hadoop fs 的形式。 所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统,scheme是hdfs,对本地文件系统,scheme是file。其中scheme和authority参数都是可选的,如果未加指定,就会使用配置中指定的默认scheme。一个HDFS文件或目录比如/parent/child可以表示成hdfs://namenode:namenodeport/parent/child,或者更简单的/parent/child(假设你配置文件中的默认值是namenode:namenodeport)。大多数FS Shell命令的行为和对应的Unix Shell命令类似,出错信息会输出到stderr,其他信息输出到stdout。


一、操作内容

示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。

二、操作步骤

1.打开终端模拟器,切换到/apps/hadoop/sbin目录下,启动Hadoop,直接执行start-all.sh外,还可以分步启动start-dfs.sh和start-yarn.sh。

2.执行jps,检查一下Hadoop相关进程是否启动

3.创建文件夹

1.	hadoop fs -mkdir /test1

4.创建一个file.txt文件

1.	hadoop fs -touch /test1/ file.txt  

5.查看根目录下所有文件,还可以使用ls -R的方式递归查看根下所有文件

1.	hadoop fs -ls /  
2.	hadoop fs -ls -R /  

7.将Hadoop根下test1目录中的file.txt文件,移动到根下并重命名为file2.txt

1.	hadoop fs -mv /test1/file.txt /file2.txt  

8.将Hadoop根下的file2.txt文件复制到test1目录下

1.	hadoop fs -cp /file2.txt /test1  

9.在Linux本地/data目录下,创建一个data.txt文件,并向其中写入hello hadoop!

1.	cd /data  
2.	touch data.txt  
3.	echo hello hadoop! >> data.txt  

10.将Linux本地/data目录下的data.txt文件,上传到HDFS中的/test1目录下

1.	hadoop fs -put /data/data.txt /test1  

11.查看Hadoop中/test1目录下的data.txt文件

1.	hadoop fs -cat /test1/data.txt  

12.除此之外还可以使用tail方法

1.	hadoop fs -tail /test1/data.txt  

tail方法是将文件尾部1K字节的内容输出。支持-f选项,行为和Unix中一致。
13.查看Hadoop中/test1目录下的data.txt文件大小

1.	hadoop fs -du -s /test1/data.txt  

-du 后面可以不加-s,直接写目录表示查看该目录下所有文件大小
14.text方法可以将源文件输出为文本格式。允许的格式是zip和TextRecordInputStream。

1.	hadoop fs -text /test1/data.txt  

15.stat方法可以返回指定路径的统计信息,有多个参数可选,当使用-stat选项但不指定format时候,只打印文件创建日期,相当于%y

  1. hadoop fs -stat /test1/data.txt

下面列出了format的形式:
%b:打印文件大小(目录为0)
%n:打印文件名
%o:打印block size (我们要的值)
%r:打印备份数
%y:打印UTC日期 yyyy-MM-dd HH:mm:ss
%Y:打印自1970年1月1日以来的UTC微秒数
%F:目录打印directory, 文件打印regular file
16.将Hadoop中/test1目录下的data.txt文件,下载到Linux本地/apps目录中

1.	hadoop fs -get /test1/data.txt /apps  

17.查看一下/apps目录下是否存在data.txt文件

1.	ls /apps  

18.使用chown方法,改变Hadoop中/test1目录中的data.txt文件拥有者为root,使用-R将使改变在目录结构下递归进行。

1.	hadoop fs -chown root /test1/data.txt  

19.使用chmod方法,赋予Hadoop中/test1目录中的data.txt文件777权限

1.	hadoop fs -chmod 777 /test1/data.txt  

20.删除Hadoop根下的file2.txt文件

1.	hadoop fs -rm /file2.txt  

21.删除Hadoop根下的test1目录

1.	hadoop fs -rm -r /test1  

22.当在Hadoop中设置了回收站功能时,删除的文件会保留在回收站中,可以使用expunge方法清空回收站。

1.	hadoop fs -expunge  

注: 在分布式文件系统启动的时候,开始的时候会有安全模式,当分布式文件系统处于安全模式的情况下,文件系统中的内容不允许修改也不允许删除,直到安全模式结束。
安全模式主要是为:
(1)系统启动的时候检查各个DataNode上数据块的有效性,(2)根据策略必要的复制或者删除部分数据块。
运行期通过命令也可以进入安全模式。在实践过程中,系统启动的时候去修改和删除文件也会有安全模式不允许修改的出错提示,只需要等待一会儿即可。

23.使用Shell命令执行Hadoop自带的WordCount
首先切换到/data目录下,使用vim编辑一个data.txt文件,内容为(hello world hello hadoop hello )

1.	cd /data  
2.	vim data.txt  

在HDFS的根下创建in目录,并将/data下的data.txt文件上传到HDFS中的in目录

1.	hadoop fs -put /data/data.txt /in  

执行hadoop jar命令,在hadoop的/apps/hadoop/share/hadoop/mapreduce路径下存在hadoop-mapreduce-examples-2.6.0-cdh5.4.5.jar包,我们执行其中的worldcount类,数据来源为HDFS的/in目录,数据输出到HDFS的/out目录

1.	hadoop jar /apps/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0-cdh5.4.5.jar wordcount /in /out  

查看HDFS中的/out目录

1.	hadoop fs -ls /out  
2.	hadoop fs -cat /out/*  

24.进入Hadoop安全模式

1.	hdfs dfsadmin -safemode enter  

25.退出Hadoop安全模式

1.	hdfs dfsadmin -safemode leave  

26.切换到/apps/hadoop/sbin目录下,关闭Hadoop

1.	cd /apps/hadoop/sbin  
2.	./stop-all.sh  
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值