hadoop工作原理、源码分析、运维
文章平均质量分 68
JamesFen
这个作者很懒,什么都没留下…
展开
-
深入理解Hadoop集群和网络
原文地址 http://bradhedlund.com/2011/09/10/understanding-hadoop-clusters-and-the-network/本文侧重于Hadoop集群的体系结构和方法,以及它与网络和服务器基础设施这件的关系。文章的素材主要来自于研究工作以及同现实生活中运行Hadoop集群客户的讨论。如果你也在你的数据中心运行产品级的Hadoop集群转载 2014-06-30 22:48:59 · 895 阅读 · 0 评论 -
Hadoop YARN配置参数剖析(3)—MapReduce相关参数
MapReduce相关配置参数分为两部分,分别是JobHistory Server和应用程序参数,Job History可运行在一个独立节点上,而应用程序参数则可存放在mapred-site.xml中作为默认参数,也可以在提交应用程序时单独指定,注 意,如果用户指定了参数,将覆盖掉默认参数。以下这些参数全部在mapred-site.xml中设置。1. MapReduce Jo转载 2014-12-08 20:11:03 · 1054 阅读 · 0 评论 -
hadoop job 重要性能参数
name说明mapred.task.profile是否对任务进行profiling,调用java内置的profile功能,打出相关性能信息mapred.task.profile.{maps|reduces}对几个map或reduce进行profiling。非常影响速度,建议在小数据量上尝试mapred.job.reuse.jvm.num.tasks转载 2014-12-08 19:56:46 · 1082 阅读 · 0 评论 -
hadoop作业调优参数整理及原理
hadoop作业调优参数整理及原理10/22. 20131 Map side tuning参数1.1 MapTask运行内部原理当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂,并且利用到了内存buffer来进行已经产生的部分结果的缓存,并在内存buffer中进行一些预排序来优化整个map的性能。如转载 2014-12-08 19:52:49 · 787 阅读 · 0 评论 -
Hadoop Reducer个数设置
在默认情况下,一个MapReduce Job如果不设置Reducer的个数,那么Reducer的个数为1。具体,可以通过JobConf.setNumReduceTasks(int numOfReduceTasks)方法来设置Reducer的个数。那么,如何确定Reducer的个数呢,Hadoop documentation 推荐了两个计算公式:0.95 * NUMBER_OF_N转载 2014-07-10 00:09:48 · 1980 阅读 · 0 评论 -
Hadoop的namenode和secondnamenode分开部署在不同服务器
一、系统环境: Hadoop 0.20.2、JDK 1.6、Linux操作系统二、使用背景 网上关于Hadoop的集群配置,很多情况下,都是把namenode和secondnamenode部署在同一服务器上。为了降低风险,一个大的集群环境,最好是把这两个配置到不同的服务器上。三、操作 要达到这要求,需要对conf/master、conf/hdfs-site.xml和co转载 2014-07-09 16:20:48 · 1585 阅读 · 0 评论 -
hadoop主节点(NameNode)备份策略以、恢复方法、操作步骤
一、dits和fsimage 首先要提到两个文件edits和fsimage,下面来说说他们是做什么的。集群中的名称节点(NameNode)会把文件系统的变化以追加保存到日志文件edits中。当名称节点(NameNode)启动时,会从镜像文件 fsimage 中读取HDFS的状态,并且把edits文件中记录的操作应用到fsimage,也就是合并到fsimage中去。合并后转载 2014-07-09 16:15:35 · 5335 阅读 · 0 评论 -
Hadoop中Partition的定制
1.解析PartitionMap的结果,会通过partition分发到Reducer上,Reducer做完Reduce操作后,通过OutputFormat,进行输出,下面我们就来分析参与这个过程的类。Mapper的结果,可能送到Combiner做合并,Combiner在系统中并没有自己的基类,而是用Reducer作为Combiner的基类,他们对外的功能是一样的,只是使用的位置和使转载 2014-07-10 00:10:45 · 883 阅读 · 0 评论 -
如何使用Hadoop的Partitioner
如何使用Hadoop的Partitioner博客分类: HadoophadooppartitionHadoop里面的MapReduce编程模型,非常灵活,大部分环节我们都可以重写它的API,来灵活定制我们自己的一些特殊需求。 今天散仙要说的这个分区函数Partitioner,也是一样如此,下面我们先来看下Partitioner的作用: 对map端输出的数转载 2014-07-10 00:31:32 · 951 阅读 · 1 评论 -
Hadoop Map/Reduce教程
Hadoop Map/Reduce教程目的先决条件概述输入与输出例子:WordCount v1.0源代码用法解释Map/Reduce - 用户界面核心功能描述MapperReducerPartitionerReporterOutputCollector作业配置任务的执行和环境作业的提交与监控作业的控制作业的输入InputSplitRe转载 2014-07-02 21:32:12 · 987 阅读 · 0 评论 -
map-reduce的八个流程
下面讲解这八个iytk Inputformat——》map——》(combine)——》partition——》copy&merge——》sort——》reduce——》outputformatFileSplit:文件的子集--文件分割体简介: 这篇文档描述在hadoop中map和reduce操作是怎样具体完成的。如果你对Google的MapReduce各式模转载 2014-07-02 21:29:46 · 1968 阅读 · 0 评论 -
Ganglia 安装 for centos6.5
Ganglia 安装 for centos6.5 x64 cdh5.1.0原创 2014-12-14 21:34:47 · 1840 阅读 · 0 评论