Hadoop2.6.0配置参数查看小工具

前言

使用Hadoop进行离线分析或者数据挖掘的工程师,经常会需要对hadoop集群或者mapreduce作业进行性能调优。也许你知道通过浏览器访问http://master:18088/conf来查看配置信息,如下图所示:



但是当Linux工程师们只面对命令行时,如何查看呢?而且如果运维工程师根据集群状况及运行历史使用shell、Python、ruby等脚本写些运维代码,甚至动态调整集群参数时,该怎么办呢?性能调优的前提是需要能准确知道目前针对Hadoop集群或者mapreduce作业配置的参数。在MySQL中可以通过以下命令查询参数值:

[python]  view plain  copy
  1. SHOW VARIABLES LIKE 'some_parameter'  
也可以使用以下命令查询参数值:

[python]  view plain  copy
  1. SELECT @@session.some_parameter  
  2. SELECT @@global.some_parameter  
或者直接查询information_schema.GLOBAL_VARIABLES得到参数值。

可惜的是Hadoop没有提供类似的方式,这对于在linux系统下查看参数进而修改参数增加了成本和负担。尽管我们可以

本文将针对这一需求,基于Hadoop开发一个简单实用的工具查询查看各种参数。

准备工作

首先在Hadoop集群的Master节点的个人目录下创建workspace目录用于存储开发的Hadoop应用代码,命令如下:

[python]  view plain  copy
  1. mkdir workspace  
进入workspace目录,开始编辑HadoopConfDisplay.java代码:


为便于大家使用,我把代码都列出来,这其实也是借鉴了网上别人的一些内容:

[java]  view plain  copy
  1. import java.util.Map.Entry;  
  2.   
  3. import org.apache.hadoop.conf.*;  
  4. import org.apache.hadoop.util.*;  
  5.   
  6. public class HadoopConfDisplay extends Configured implements Tool {  
  7.   
  8.   static {  
  9.     Configuration.addDefaultResource("core-site.xml");  
  10.     Configuration.addDefaultResource("hdfs-site.xml");  
  11.     Configuration.addDefaultResource("mapred-site.xml");  
  12.     Configuration.addDefaultResource("yarn-site.xml");  
  13.   }  
  14.   
  15.   @Override  
  16.   public int run(String[] args) throws Exception {  
  17.     Configuration conf = getConf();  
  18.     for (Entry<String, String> entry: conf) {  
  19.       System.out.printf("%s=%s\n", entry.getKey(), entry.getValue());  
  20.     }  
  21.     return 0;  
  22.   }  
  23.   
  24.   public static void main(String[] args) throws Exception {  
  25.     int exitCode = ToolRunner.run(new HadoopConfDisplay(), args);  
  26.     System.exit(exitCode);  
  27.   }  
  28. }  

在Hadoop的根目录下创建myclass,此目录用于存储个人开发的Hadoop应用代码编译后的class或者jar包。我本地的目录为/home/jiaan.gja/install/hadoop-2.6.0/myclass/

由于HadoopConfDisplay中使用了hadoop-common-2.6.0.jar中的类,所以编译HadoopConfDisplay.Java时需要指定classpath。同时将编译后的class输出到/home/jiaan.gja/install/hadoop-2.6.0/myclass/目录下。执行命令如下:


进入myclass目录,将编译好的HadoopConfDisplay的class打到jar包里:

[python]  view plain  copy
  1. jar cvf mytest.jar *  
执行过程如下:


成果验证

经过以上准备,最终我们生成了mytest.jar包文件,现在到了验证输出Hadoop配置参数的时候。输入以下命令:

[python]  view plain  copy
  1. hadoop jar mytest.jar HadoopConfDisplay  
输出结果如下图:


由于参数的确很多,这里只展示了其中的一部分信息。这里显示的信息虽然很多,可是会发现很多参数并没有包括进来,比如:

mapreduce.job.ubertask.enable

mapreduce.job.ubertask.maxreduces

mapreduce.job.ubertask.maxmaps

完善

    还记得本文刚开始说的通过web界面查看Hadoop集群参数的内容吗?我在我个人搭建的集群(有关集群的搭建可以参照《Linux下Hadoop2.6.0集群环境的搭建》)上访问http://master:18088/conf页面时,可以找到以上缺失的参数如下所示:

[html]  view plain  copy
  1. <configuration>  
  2.   <property>  
  3.     <name>mapreduce.job.ubertask.enable</name>  
  4.     <value>false</value>  
  5.     <source>mapred-default.xml</source>  
  6.   </property>  
  7.   <!-- 省略其它参数属性 -->  
  8.   <property>  
  9.     <name>mapreduce.job.ubertask.maxreduces</name>  
  10.     <value>1</value>  
  11.     <source>mapred-default.xml</source>  
  12.   </property>  
  13.   <!-- 省略其它参数属性 -->  
  14.   <property>  
  15.     <name>mapreduce.job.ubertask.maxmaps</name>  
  16.     <value>9</value>  
  17.     <source>mapred-default.xml</source>  
  18.   </property>  
  19.   <!-- 省略其它参数属性 -->  
  20. </configuration>  
从以上内容我们可以看见缺失的参数都配置在 mapred-default.xml中,而我之前编写的HadoopConfDisplay类的代码中并未包含此配置。此外,未包括进来的配置文件还有yarn-default.xml、core-default.xml(说明Hadoop参数默认是从*-default.xml的几个文件中读取的)。最后我们将这些内容也编辑进去,代码如下:

[java]  view plain  copy
  1. import java.util.Map.Entry;  
  2.   
  3. import org.apache.hadoop.conf.*;  
  4. import org.apache.hadoop.util.*;  
  5.   
  6. public class HadoopConfDisplay extends Configured implements Tool {  
  7.   
  8.   static {  
  9.     Configuration.addDefaultResource("core-default.xml");  
  10.     Configuration.addDefaultResource("yarn-default.xml");  
  11.     Configuration.addDefaultResource("mapred-default.xml");  
  12.     Configuration.addDefaultResource("core-site.xml");  
  13.     Configuration.addDefaultResource("hdfs-site.xml");  
  14.     Configuration.addDefaultResource("mapred-site.xml");  
  15.     Configuration.addDefaultResource("yarn-site.xml");  
  16.   }  
  17.   
  18.   @Override  
  19.   public int run(String[] args) throws Exception {  
  20.     Configuration conf = getConf();  
  21.     for (Entry<String, String> entry: conf) {  
  22.       System.out.printf("%s=%s\n", entry.getKey(), entry.getValue());  
  23.     }  
  24.     return 0;  
  25.   }  
  26.   
  27.   public static void main(String[] args) throws Exception {  
  28.     int exitCode = ToolRunner.run(new HadoopConfDisplay(), args);  
  29.     System.exit(exitCode);  
  30.   }  
  31. }  

最后我们按照之前的方式编译打包为mytest.jar,再执行命令验证的结果如下图所示:

之前缺失的参数都出来了,呵呵!

这下大家可以愉快的进行性能调优了。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值