hadoop
文章平均质量分 54
逸卿
这个作者很懒,什么都没留下…
展开
-
使用ntpdate更新系统时间
ntpd、ntpdate的区别使用之前得弄清楚一个问题,ntpd与ntpdate在更新时间时有什么区别。ntpd不仅仅是时间同步服务器,他还可以做客户端与标准时间服务器进行同步时间,而且是平滑同步,并非ntpdate立即同步,在生产环境中慎用ntpdate,也正如此两者不可同时运行。时钟的跃变,对于某些程序会导致很严重的问题。许多应用程序依赖连续的时钟——毕竟,这是一项常见的假定,转载 2014-04-29 18:32:27 · 2034 阅读 · 0 评论 -
史上最深入解析hadoop调优,没有之一!
hadoop作业调优参数整理及原理1 Map side tuning参数1.1 MapTask运行内部原理当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂,并且利用到了内存buffer来进行已经产生的部分结果的缓存,并在内存buffer中进行一些预排序来优化整个map的性能。如上图所示,每一个m转载 2014-05-06 23:01:29 · 979 阅读 · 0 评论 -
Hadoop源代码分析(完整版)
Hadoop源代码分析(一)关键字: 分布式云计算Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章,介绍了它们的计算设施。 GoogleCluster:http://research.google.com/archive/googlecluster.html Chubby:http://labs.google.com/papers/chub转载 2014-05-06 15:56:24 · 1851 阅读 · 0 评论 -
hadoop 调优1
Hadoop调优mapred.tasktracker.map.tasks.maximum 官方解释:The maximum number of map tasks that will be run simultaneously by a task tracker. 我的理解:一个tasktracker最多可以同时运行的map任务数量 默认值转载 2014-05-07 09:31:28 · 838 阅读 · 0 评论 -
如何在hadoop中控制map的个数
hadooop提供了一个设置map个数的参数mapred.map.tasks,我们可以通过这个参数来控制map的个数。但是通过这种方式设置map的个数,并不是每次都有效的。原因是mapred.map.tasks只是一个hadoop的参考数值,最终map的个数,还取决于其他的因素。 为了方便介绍,先来看几个名词:block_size : hdfs的文件块大小,默认为64M,可转载 2014-05-06 09:53:16 · 1651 阅读 · 0 评论 -
Hadoop计算中的Shuffle过程
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce,Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在这里我尽转载 2014-05-07 11:03:41 · 594 阅读 · 0 评论 -
Hadoop MapReduce架构简介(初学学习不错)
MapReduce采用主从结构,JobTracker作为主节点,TaskTracker作为从节点。 其架构图详见图1所示: 图1 MapReduce架构图1、Client 用户编写的MapReduce程序通过Client提交到JobTracker端,还可通过Client提供的一些接口查看作业的运行状态。在Hadoo转载 2014-05-08 15:31:50 · 858 阅读 · 0 评论 -
Win下Eclipse提交hadoop程序出错:org.apache.hadoop.security.AccessControlException: Permission denied: user=D
描述:在window下使用Eclipse进行hadoop的程序编写,然后Run on hadoop 后,出现如下错误:11/10/28 16:05:53 INFO mapred.JobClient: Running job: job_201110281103_000311/10/28 16:05:54 INFO mapred.JobClient: map 0% reduce 0%1转载 2014-04-25 17:38:04 · 840 阅读 · 0 评论 -
Hive Hbase区别 转载整理
以下 由网上内容 整理:Hive是为了简化编写MapReduce程序而生的,使用MapReduce做过数据分析的人都知道,很多分析程序除业务逻辑不同外,程序流程基本一样。在这种情况下,就需要Hive这样的用戶编程接口。Hive本身不存储和计算数据,它完全依赖于HDFS和MapReduce,Hive中的表纯逻辑,就是些表的定义等,也就是表的元数据。使用SQL实现Hive是因为SQ转载 2014-04-13 13:07:24 · 773 阅读 · 0 评论 -
Hadoop学习资料、博客及网站汇总
Hadoop官方的中文文档http://hadoop.apache.org/common/docs/r0.18.2/cn/index.html Hadoop学习资料 -- 这里面总结了很多的东西,值得一一细看http://cloud21.javaeye.com/blog/607175 关于Hadoop的两本书 -- 有电子书下载http://caibinbupt.jav转载 2014-04-13 13:15:03 · 1037 阅读 · 0 评论 -
java实现各种数据统计图(柱形图,饼图,折线图)
最近在做数据挖掘的课程设计,需要将数据分析的结果很直观的展现给用户,这就要用到数据统计图,要实现这个功能就需要几个第三方包了:1. jfreechart-1.0.13.jar2. jcommon-1.0.16.jar3. gnujaxp.jar 先来看一下,最终效果图: 主要是jfreechart-1.0.13.jar,但这三个包转载 2014-04-13 17:28:03 · 2943 阅读 · 0 评论 -
mapreduce的一般运行步骤
map任务处理过程第一:读取HDFS中的文件内容,对输入的每一行解析成键值对,每一对键值对调用一次map函数第二:写自己的逻辑map函数,对输入的处理,装换成新的键值对输出第三:对输出的进行分区第四:对不同分区的数据,按照key进行排序和分组,分组时把相同的key的value放到一个集合中第五:(可选)分组后进行数据的归约处理 reduce任原创 2014-05-06 10:09:39 · 1299 阅读 · 0 评论 -
hadoop中的TextInputFormat类源码分析
在“天龙八部”(map+reduce执行的八大步骤)第一步的时候,需要指定用哪个类对输入文件进行格式化,代码是:job.setInputFromatClass(TextInputFormat.class)—>(进入到源码),进入到TextInputFormat类中发现它继承了FileInputFormat抽象类,而FileInputFormat继承了InputFormat抽象类,在InputFor原创 2014-05-06 16:51:35 · 1404 阅读 · 0 评论 -
MapReduce求年度最高气温值以及combiner的一点认识
MapReduce编程我是初学,下面这个例子是参考《Hadoop权威指南》第二章中的气象数据集中求取年份气温最高值的一个示例入门程序,so,如果您是老道级的高手就不用往下看了。其实这个例子的原理和统计词频是一样的,这里重点想说的还是关于combiner的一点认识,不过索性就将代码的实现写了吧。 MapReduce应用程序处理的数据是存放在HDFS(Hadoop distrib转载 2014-05-01 17:04:55 · 984 阅读 · 0 评论 -
Hadoop 权限管理
如下图,hadoop访问控制分为两级,其中ServiceLevel Authorization为系统级,用于控制是否可以访问指定的服务,例如用户/组是否可以向集群提交Job,它是最基础的访问控制,优先于文件权限和mapred队列权限验证。Access Control on Job Queues在job调度策略层之上,控制mapred队列的权限。DFSPermmision用户控制文件权限。目前版本中转载 2014-05-03 16:57:05 · 902 阅读 · 0 评论 -
Hadoop Reducer个数设置
在默认情况下,一个MapReduce Job如果不设置Reducer的个数,那么Reducer的个数为1。具体,可以通过JobConf.setNumReduceTasks(int numOfReduceTasks)方法来设置Reducer的个数。那么,如何确定Reducer的个数呢,hadoop documentation 推荐了两个计算公式: •0.95 * NUMBER_OF_NOD转载 2014-05-03 18:34:08 · 2289 阅读 · 0 评论 -
深度分析如何在Hadoop中控制Map的数量
很多文档中描述,Mapper的数量在默认情况下不可直接控制干预,因为Mapper的数量由输入的大小和个数决定。在默认情况下,最终input占据了多少block,就应该启动多少个Mapper。如果输入的文件数量巨大,但是每个文件的size都小于HDFS的blockSize,那么会造成启动的Mapper等于文件的数量(即每个文件都占据了一个block),那么很可能造成启动的Mapper数量超出限制而导转载 2014-05-03 19:51:02 · 1011 阅读 · 0 评论 -
hadoop SecondNamenode详解
SecondNamenode名字看起来很象是对第二个Namenode,要么与Namenode一样同时对外提供服务,要么相当于Namenode的HA。真正的了解了SecondNamenode以后,才发现事实并不是这样的。下面这段是Hadoop对SecondNamenode的准确定义:* The Secondary Namenode is a helper to the primary转载 2014-05-04 10:41:19 · 1421 阅读 · 0 评论 -
MapReduce: 提高MapReduce性能的七点建议[译]
Cloudera提供给客户的服务内容之一就是调整和优化MapReduce job执行性能。MapReduce和HDFS组成一个复杂的分布式系统,并且它们运行着各式各样用户的代码,这样导致没有一个快速有效的规则来实现优化代码性能的目的。在我看来,调整cluster或job的运行更像一个医生对待病人一样,找出关键的“症状”,对于不同的症状有不同的诊断和处理方式。 在医学领域,没转载 2014-05-03 16:54:17 · 538 阅读 · 0 评论 -
hadoop 1.X资源管理机制缺陷分析和解决方案
一、概述 用hadoop1.x版本已经有一年多了,在使用的过程中发现hadoop1.X的资源管理机制存在诸多缺陷,甚至在这种资源管理机制下会造成服务器资源的严重浪费,负载过高或者过低。本文主要介绍hdaoop1.X的资源管理机制,这种机制的缺点,总结一下自己在这方面遇到的实际问题,最后是自己对改进hadoop资源管理机制的一些想法。二、hadoop 1.x资源管理机制h转载 2014-05-03 16:42:18 · 1009 阅读 · 0 评论 -
windows下使用Eclipse运行MapReduce程序出错: Failed to set...
windows下使用Eclipse运行MapReduce程序出错: Failed to set...在windows下用Eclipse运行MapReduce程序会报错:12/04/24 15:32:44 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platfo转载 2014-05-05 21:14:57 · 980 阅读 · 0 评论 -
job提交的源码分析
job.waitForCompletion(ture),这个方法属于job类—>它里面有一个submit()方法—>submit方法里面又有一个connect()方法,它的作用是连接到jobtracker—>在connect()方法中,创建了一个jobClient类的对象时,调用jobClient构造方法时,读取配置文件中的mapred-sie.xml中name为“mapred.job.track原创 2014-05-06 10:06:19 · 813 阅读 · 0 评论 -
Hadoop Configuration详解
from:http://f.dataguru.cn/thread-258563-1-1.htmlHadoop Configuration详解2.2 Hadoop Configuration详解Hadoop没有使用java.util.Properties管理配置文件,也没有使用Apache Jakarta Commo转载 2014-11-27 15:40:18 · 901 阅读 · 0 评论