hadoop的HDFS操作

2 篇文章 0 订阅

1.进入服务器

ssh -p 2208 haram.shen@x.x.x.x

(一些操作可以参见下pythonmapreduce的那个项目)


2.删除hadoop文件

hadoop dfs -rm -r -f /tmp/hx


3.输出固定行:

hadoop dfs -cat /tmp/hxs/out.txt | head -n 100;


4.建立文件夹

hadoop dfs -mkdir /tmp/hx


4.1:HDFS的文件合并

hadoop fs -text /tmp/hxsout_3/part* | hadoop fs -put -f - /tmp/hs/out.txt;


4.2hive数据传到HDFS文件

hive -e "select id,user_id,rating from rec.rec_pref_cf" | hadoop dfs -put -f - /tmp/hs/Item_user_score.txt;


4.2传本地文件到HDFS

hadoop dfs -copyFromLocal /home/haram.shen/cf/colfilter.txt /tmp/hx


4.3  HDFS文件拉到本地服务器

hadoop fs -get  input1.txt /home/haram.shen/input1.txt

5=============hadoop=================

1.ps -ef | grep in.telnetd 

表示全局正则表达式版本

2.’/usr/src/Linux/Doc’目录下搜索带字符 ’magic’的文件:

$ grep magic /usr/src/Linux/Doc/*

3.用管道来一行行排除的,就是

cat xxx | grep xxx | grep xxx | grep xxx


4.hadoop dfs -getmerge /tmp/hxsout/part-00000.snappy /home/haram.shen/tt.txt

hdfs集群上有一个/user/hadoop/output目录里面有作业执行的结果(多个文件组成)part-000000,part-000001,part-000002然后你想把所有的文件合拢来一起看 

5.查看snappy压缩

hadoop dfs -text /tmp/hxsout/part-00000.snappy | less

=======================================================

5.1 查看 Job 信息:

hadoop job -list 

5.2 杀掉 Job 

hadoop  job –kill  job_id

5.3 指定路径下查看历史日志汇总:

hadoop job -history output-dir 

5.4 作业的更多细节: 

hadoop job -history all output-dir 

5.5 打印mapreduce完成百分比和所有计数器:

hadoop job –status job_id 

5.6 杀死任务。被杀死的任务不会不利于失败尝试:

hadoop jab -kill-task <task-id> 

5.7 使任务失败。被失败的任务会对失败尝试不利:

hadoop job  -fail-task <task-id>

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值