hadoop 集群调优

转载 2016年05月30日 13:18:17

查看hdfs 大小
hdfs dfs -df -h

刷新集群:
hadoop dfsadmin -refreshNodes

一定要设置负载均衡
./start-balancer.sh -threshold 1

start-balancer.sh可以执行-threshold参数。
-threshold参数是指定平衡的阈值。
-threshold的默认是10,即每个datanode节点的实际hdfs存储使用量/集群hdfs存储量

举例:
datanode hdfs使用量1.2G;
集群总hdfs存储量10T即10000G;
则t值为1.2/10000 = 0.00012;
当执行balance的-t参数小于0.00012时,集群进行balance;
命令为:start-balancer.sh -threshold 0.0001

注:
1. balance命令可以在namenode或者datanode上启动;
可以随时停止balance命令。
balance的默认带宽是1M/s。

参考:
http://www.cnblogs.com/BYRans/p/5128162.html
http://www.ibm.com/developerworks/cn/data/library/bd-1506-hdfsdatabalance/index.html

给磁盘预留170G,hdfs节点的大小是磁盘空间减去170G,单位是字节

<property>
<name>dfs.datanode.du.reserved</name>
<!-- reserved space in bytes -->
<value>170000000000</value>
<description>Reserved space in bytes per volume. Always leave this much space free for non dfs use.
</description>
</property>

Could not find or load main class

export CLASSPATH=$CLASSPATH:$HADOOP_HOME/share/hadoop/common:$HADOOP_HOME/share/hadoop/common/lib:$HADOOP_HOME/share/hadoop/yarn:$HADOOP_HOME/share/hadoop/mapreduce:$HADOOP_HOME/share/hadoop/hdfs

no proxyserver to stop
以前的pid被保留,而当前的pid找不到了
解决方法:通过jps获取各个进程的pid
http://www.aboutyun.com/thread-11610-1-1.html

hadoop-env.sh
这个文件主要配置如java路径、hadoop配置文件目录、日志目录等环境变量,最简单的配置是只修改java路径(JAVA_HOME)而不修改其他。不过今天我想重启集群时发现stop-hdfs.sh脚本无法关闭集群,网上找到的原因是集群进程的pid号默认放在/tmp目录下导致pid号的定期删除,而管理脚本找不到pid号导致管理失败。于是考虑将pid放到自己定义的目录下。hadoop-env.sh文件中定义了一个HADOOP_PID_DIR变量,于是可以简单地在.bashrc文件中加入该变量即可。如果不行,在hadoop-env.sh中直接定义该变量。

yarn-env.sh
这个文件也是设置如java路径等环境变量。可以在文件中或者直接在.bashrc中设置如JAVA_HOME或者YARN_PID_DIR(设置pid的存放目录)等变量。pid默认存放在/tmp目录下,丢失也会导致stop-yarn.sh等脚本的失效。(stop-yarn.sh脚本实际上调用的是yarn-daemon.sh,其中可以发现YARN_PID_DIR变量)

参考:
https://segmentfault.com/a/1190000000719467
http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-common/ClusterSetup.html
https://codingforfun.gitbooks.io/hadoop-2-3-0-/content/hadoop_230_ji_qun_an_zhuang_bu_shu.html

hadoop集群调优及MR调优

一、操作系统调优 1、提高网络连接上限。以增加网络带宽的利用率,即修改内核net.core.somaxcon参数 2、关闭swap交换分区。以免内存不足时,数据会溢写到磁盘,读取时再从磁盘读取,增加...
  • do_what_you_can_do
  • do_what_you_can_do
  • 2016年11月09日 09:33
  • 1020

HDP 2.2 ( Hadoop 2.6 ) 集群的内存参数配置和参数调优 (Yarn/MapReduce2)

近期在根据集群上的各节点的物理机配置对集群的内存参数进行调整。  因此较系统的学习了一下hadoop里对资源调配的各组件的相关参数。  主要包含如何设置yarn中的参数, mapreduce2的参数,...
  • tiimfei
  • tiimfei
  • 2015年07月09日 17:19
  • 3342

hadoop JOB的性能优化实践

使用了几个月的hadoopMR,对遇到过的性能问题做点笔记,这里只涉及job的性能优化,没有接触到 hadoop集群,操作系统,任务调度策略这些方面的问题。 hadoop MR在做大数据量...
  • wuzhongdehua1
  • wuzhongdehua1
  • 2015年03月19日 02:21
  • 937

基于yarn的Hadoop调优

Hadoop2推出yarn作为资源管理器,它借鉴了mesos的思想为上层应用提供统一的资源管理和调度。首先ResourceManager(RM)通过NodeManager(NM)不断得到集群整体资源的...
  • victory0508
  • victory0508
  • 2016年02月16日 13:08
  • 632

Hadoop实践(四)---Hadoop性能优化

**Hadoop参数优化的3个原则: (1)增大作业的并行程度,如增加Map任务的数量 (2)保证任务执行时有足够的资源 (3)满足前两个的情况下,尽可能为shuffle阶段提供资源 【以上适...
  • Wee_Mita
  • Wee_Mita
  • 2016年09月12日 21:32
  • 629

Hadoop性能调优总结(一)

目的 随着企业要处理的数据量越来越大,Hadoop运行在越来越多的集群上,同时MapReduce由于具有高可扩展性和容错性,已经逐步广泛使用开来。因此也产生很多问题,尤其是性能方面的...
  • chndata
  • chndata
  • 2015年05月26日 08:54
  • 6232

Hadoop之MR的调优性能

在工作过程中遇到这样一个问题:就是在map的时候xuyao
  • liao272549164
  • liao272549164
  • 2014年10月31日 14:51
  • 893

Hadoop作业JVM堆优化汇总及JVM复用

Hadoop作业JVM堆优化汇总及JVM复用  [复制链接]     电梯直达 楼主  发表于 2014-4-27 20:49:55 | 只看该作...
  • javastart
  • javastart
  • 2016年02月07日 06:59
  • 1105

Hadoop性能优化点小结

最近一段时间看了许多Hadoop性能优化相关的资料,于是花了点时间整理了一下,希望给正在苦于Hadoop集群性能问题的博友们一点建议吧。 1、Hadoop在存储有输入数据的节点上运行map任务,可以...
  • Androidlushangderen
  • Androidlushangderen
  • 2015年05月04日 20:57
  • 4471

hadoop集群优化之内存设置

hots http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.0.9.1/bk_installing_manually_book/content/...
  • wodeyuer125
  • wodeyuer125
  • 2014年05月12日 09:37
  • 711
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:hadoop 集群调优
举报原因:
原因补充:

(最多只允许输入30个字)