hadoop命令

摘自http://blog.csdn.net/liangliyin/article/details/5984072 

1 hadoop dfs -stat "%o" 文件路径:查看该文件的 分块情况,“ ”还可以是

%b:打印文件大小(目录为0)

%n:打印文件名

%o:打印block size (我们要的值)

%r:打印备份数

%y:打印UTC日期 yyyy-MM-dd HH:mm:ss

%Y:打印自1970年1月1日以来的UTC微秒数

%F:目录打印directory, 文件打印regular file

2 bin/hadoop fsck [-move | -delete | -openforwrite] [-files [-blocks [-locations | -racks]]]

<path>        检查的起始目录

-move        将损坏的文件移动到/lost+found下面

-delete        删除损坏的文件

-openforwrite    打印出正在写的文件

-files        打印出所有被检查的文件

-blocks        打印出block报告

-locations    打印出每个block的位置

-racks        打印出datanode的网络拓扑结构

默认情况下,fsck会忽略正在写的文件,使用-openforwrite选项可以汇报这种文件。

需要注意的是在执行fsck命令行的客户端必选在hadoop-site.xml中配置dfs.http.address项,即namenode的http地址。否则会抛出java.net.ConnectException: Connection refused异常。其原因是fsck是namenode的一个servlet。而fsck命令对应的类DFSck其实是封装了一个http连接,简单的说就是抓取一个网页。而这个网页URL就是dfs.http.address配置项的value后面接上fsck,如http://10.249.65.1:50070/fsck。也就是说用浏览器打开这个网页和命令行执行fsck效果是一样的。

对于大的集群来说,对根目录执行fsck操作是很耗时间的而且对namenode压力很大,因此要谨慎使用。通常每天在集群较空闲的时候执行一次以查看数据状况。另外由于任何用户都可以在命令行或浏览器中执行fsck操作,因此可以考虑对该操作进行 权限控制,防止被误操作

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值