《hadoop权威指南》学习笔记-MapReduce应用开发(下)

本文档介绍了在集群上运行MapReduce应用的注意事项,强调了-libjars选项与HADOOP_CLASSPATH的区别,前者用于远程任务,后者仅限客户端。讲解了作业名和任务ID的构成,并列举了一些实用的Hadoop命令,如getmerge和counter,以及如何调试MapReduce程序。
摘要由CSDN通过智能技术生成

这部分内容主要讲在集群上运行mapreduce,说是这样说,但是由于我们还没有搭建集群环境,所以所有的工作相当于还是在伪分布的情况下做的。

第三版的书中还介绍了client-side classpath和task classpath,读了半天也是迷迷糊糊的。所以我直接讲我对这部分的理解,这一部分要注意-libjars这个选项,这也是上面那两个概念的一个区别。-libjars网上给出的统一说法是添加第三方依赖的,但HADOOP_CLASSPATH也是添加第三方依赖啊?这两者的不同就在于作用范围不同,HADOOP_CLASSPATH的作用范围只在MapReduce的客户端,而-libjars添加的依赖是作用在远程map和reduce任务的,所以-libjars添加的依赖会先上传到hdfs,然后供hadoop上的map和reduce进程使用。运行ToolRunner.run后,GenericOptionsParser会把由-libjars设置的参数设定为tmpjars属性的值,所以你可以在输出目录下的_log目录下找到想干的设置信息。你可以这样来查看:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值