Hadoop2.6.0配置参数查看小工具

最新推荐文章于 2022-04-15 17:52:27 发布

吃鱼的羊

最新推荐文章于 2022-04-15 17:52:27 发布

阅读量523

点赞数

分类专栏： Hadoop

Hadoop 专栏收录该内容

74 篇文章 1 订阅

订阅专栏

前言

使用Hadoop进行离线分析或者数据挖掘的工程师，经常会需要对hadoop集群或者mapreduce作业进行性能调优。也许你知道通过浏览器访问http://master:18088/conf来查看配置信息，如下图所示：

但是当Linux工程师们只面对命令行时，如何查看呢？而且如果运维工程师根据集群状况及运行历史使用shell、Python、ruby等脚本写些运维代码，甚至动态调整集群参数时，该怎么办呢？性能调优的前提是需要能准确知道目前针对Hadoop集群或者mapreduce作业配置的参数。在MySQL中可以通过以下命令查询参数值：

[python]view plaincopy 
   
 SHOW VARIABLES LIKE 'some_parameter'  

也可以使用以下命令查询参数值：

[python]view plaincopy 
   
 SELECT @@session.some_parameter  
 SELECT @@global.some_parameter  

或者直接查询information_schema.GLOBAL_VARIABLES得到参数值。

可惜的是Hadoop没有提供类似的方式，这对于在linux系统下查看参数进而修改参数增加了成本和负担。尽管我们可以

本文将针对这一需求，基于Hadoop开发一个简单实用的工具查询查看各种参数。

准备工作

首先在Hadoop集群的Master节点的个人目录下创建workspace目录用于存储开发的Hadoop应用代码，命令如下：

[python]view plaincopy 
   
 mkdir workspace  

进入workspace目录，开始编辑HadoopConfDisplay.java代码：

为便于大家使用，我把代码都列出来，这其实也是借鉴了网上别人的一些内容：

[java]view plaincopy 
   
 import java.util.Map.Entry;  
   
 import org.apache.hadoop.conf.*;  
 import org.apache.hadoop.util.*;  
   
 public class HadoopConfDisplay extends Configured implements Tool {  
   
   static {  
     Configuration.addDefaultResource("core-site.xml");  
     Configuration.addDefaultResource("hdfs-site.xml");  
     Configuration.addDefaultResource("mapred-site.xml");  
     Configuration.addDefaultResource("yarn-site.xml");  
   }  
   
   @Override  
   public int run(String[] args) throws Exception {  
     Configuration conf = getConf();  
     for (Entry<String, String> entry: conf) {  
       System.out.printf("%s=%s\n", entry.getKey(), entry.getValue());  
     }  
     return 0;  
   }  
   
   public static void main(String[] args) throws Exception {  
     int exitCode = ToolRunner.run(new HadoopConfDisplay(), args);  
     System.exit(exitCode);  
   }  
 }  

在Hadoop的根目录下创建myclass，此目录用于存储个人开发的Hadoop应用代码编译后的class或者jar包。我本地的目录为/home/jiaan.gja/install/hadoop-2.6.0/myclass/

由于HadoopConfDisplay中使用了hadoop-common-2.6.0.jar中的类，所以编译HadoopConfDisplay.Java时需要指定classpath。同时将编译后的class输出到/home/jiaan.gja/install/hadoop-2.6.0/myclass/目录下。执行命令如下：

进入myclass目录，将编译好的HadoopConfDisplay的class打到jar包里：

[python]view plaincopy 
   
 jar cvf mytest.jar *  

执行过程如下：

成果验证

经过以上准备，最终我们生成了mytest.jar包文件，现在到了验证输出Hadoop配置参数的时候。输入以下命令：

[python]view plaincopy 
   
 hadoop jar mytest.jar HadoopConfDisplay  

输出结果如下图：

由于参数的确很多，这里只展示了其中的一部分信息。这里显示的信息虽然很多，可是会发现很多参数并没有包括进来，比如：

mapreduce.job.ubertask.enable

mapreduce.job.ubertask.maxreduces

mapreduce.job.ubertask.maxmaps

完善

还记得本文刚开始说的通过web界面查看Hadoop集群参数的内容吗？我在我个人搭建的集群（有关集群的搭建可以参照《Linux下Hadoop2.6.0集群环境的搭建》）上访问http://master:18088/conf页面时，可以找到以上缺失的参数如下所示：

[html]view plaincopy 
   
 <configuration>  
   <property>  
     <name>mapreduce.job.ubertask.enable</name>  
     <value>false</value>  
     <source>mapred-default.xml</source>  
   </property>  
   <!-- 省略其它参数属性 -->  
   <property>  
     <name>mapreduce.job.ubertask.maxreduces</name>  
     <value>1</value>  
     <source>mapred-default.xml</source>  
   </property>  
   <!-- 省略其它参数属性 -->  
   <property>  
     <name>mapreduce.job.ubertask.maxmaps</name>  
     <value>9</value>  
     <source>mapred-default.xml</source>  
   </property>  
   <!-- 省略其它参数属性 -->  
 </configuration>  

从以上内容我们可以看见缺失的参数都配置在 mapred-default.xml中，而我之前编写的HadoopConfDisplay类的代码中并未包含此配置。此外，未包括进来的配置文件还有yarn-default.xml、core-default.xml（说明Hadoop参数默认是从*-default.xml的几个文件中读取的）。最后我们将这些内容也编辑进去，代码如下：

[java]view plaincopy 
   
 import java.util.Map.Entry;  
   
 import org.apache.hadoop.conf.*;  
 import org.apache.hadoop.util.*;  
   
 public class HadoopConfDisplay extends Configured implements Tool {  
   
   static {  
     Configuration.addDefaultResource("core-default.xml");  
     Configuration.addDefaultResource("yarn-default.xml");  
     Configuration.addDefaultResource("mapred-default.xml");  
     Configuration.addDefaultResource("core-site.xml");  
     Configuration.addDefaultResource("hdfs-site.xml");  
     Configuration.addDefaultResource("mapred-site.xml");  
     Configuration.addDefaultResource("yarn-site.xml");  
   }  
   
   @Override  
   public int run(String[] args) throws Exception {  
     Configuration conf = getConf();  
     for (Entry<String, String> entry: conf) {  
       System.out.printf("%s=%s\n", entry.getKey(), entry.getValue());  
     }  
     return 0;  
   }  
   
   public static void main(String[] args) throws Exception {  
     int exitCode = ToolRunner.run(new HadoopConfDisplay(), args);  
     System.exit(exitCode);  
   }  
 }  

最后我们按照之前的方式编译打包为mytest.jar，再执行命令验证的结果如下图所示：

之前缺失的参数都出来了，呵呵！

这下大家可以愉快的进行性能调优了。

吃鱼的羊

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop2.6.0配置参数查看小工具

前言使用Hadoop进行离线分析或者数据挖掘的工程师，经常会需要对hadoop集群或者mapreduce作业进行性能调优。也许你知道通过浏览器访问http://master:18088/conf来查看配置信息，如下图所示：但是当Linux工程师们只面对命令行时，如何查看呢？而且如果运维工程师根据集群状况及运行历史使用shell、Python、ruby等脚本写
复制链接

扫一扫