hadoop streaming -archives 解压jar、zip、tar.gz的验证

1、archives作用描述:

    Hadoop中DistributedCache方法之一(其他参考文章后面的参考文章) ,作用是 将指定文件分发到各个Task的工作目录下,并对名称后缀为“.jar”、“.zip”,“.tar.gz”、“.tgz”的文件自动解压,默认情况下,解压后的内容存放到工作目录下名称为解压前文件名的目录中,比如压缩包为dict.zip,则解压后内容存放到目录dict.zip中。为此,你可以给文件起个别名/软链接,比如dict.zip#dict,这样,压缩包会被解压到目录dict中。

2、测试jar文件(基本直接摘抄参考文档的)

$ ls test_jar/
file  file1    file2 
file = this is file1(实验的时候这里搞错了,应该是用file1,对结果无影响,不做修改了)
file2 = this is file2
$ jar cvf cache.jar -C test_jar/ .
$ hdfs dfs -put cache.jar /user/work/cachefile
#touch 一个input.txt文件,然后put到 /user/work/cachefile
$ hdfs dfs -cat /user/work/cachefile/input.txt
cache/file   (cache是解压后的目录名,用#重定义的别名,参加下面的)
cache/file2

HADOOP_HOME=/home/hadoop/hadoop-2.3.0-cdh5.1.3
$HADOOP_HOME/bin/hadoop fs -rmr /cacheout/

$HADOOP_HOME/bin/hadoop  jar $HADOOP_HOME/share/hadoop/tools/lib/hadoop-streaming-2.3.0-cdh5.1.3.jar \
 -archives  /user/work/cachefile/cache.jar#cache \
 -Dmapred.map.tasks=1 \
 -Dmapred.reduce.tasks=1 \
 -Dmapred.job.name="Experiment" \
 -input "cachefile/input2.txt"  \
 -output "/cacheout/" \
 -mapper "xargs cat" \
 -reducer "cat"
 
hadoop fs -cat /cacheout/*
this is file 2
this is file1

3、测试zip & tar.gz

    分别打包zip , tar.gz的压缩包,put到hdfs继续测试。

-archives  /user/work/cachefile/cache.tar.gz#cache \    只修改后缀名,会报文件找不到的错误

    查错:确认是否能解压,将mapper 改成:

-mapper "ls cache" \

发现:jar文件 :结果有4个文件,分别是META-INF、file、file1、file2

          zip & tar.gz:只有一个,是test_jar的目录名

然后查看3种包的压缩文件,显然是解压成功了,找不到文件的原因是目录问题,这个就要详细研究下3中打包方式了,不再赘述。:

        154442_vjh2_146658.png    154443_8WLd_146658.png        154443_zuV1_146658.png


总结:-archives是一个很实用的参数,但是使用中尤其要注意目录问题。



参考:

http://blog.javachen.com/2015/02/12/hadoop-streaming.html

http://hadoop.apache.org/docs/r2.6.0/hadoop-mapreduce-client/hadoop-mapreduce-client-core/HadoopStreaming.html#Working_with_Large_Files_and_Archives

http://dongxicheng.org/mapreduce-nextgen/hadoop-distributedcache-details/



转载于:https://my.oschina.net/wangjiankui/blog/474217

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值