![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
文章平均质量分 68
iteye_10679
这个作者很懒,什么都没留下…
展开
-
HDFS
文件系统的元数据的持久化HDFS的命名空间是由名字节点来存储的。名字节点用事务日志叫做EditLog来持久化每一个对文件系统的元数据的改变,例如,在HDFS中创建一个新的文件,名字节点将会插入一吊记录到EditLog来标示这个改变。类似地,改变文件的复制因子也会向EditLog中插入一条记录。名字节点在本地文件系统中用一个文件来存储这个EditLog。完整的文件系统命名空间、文件...原创 2010-09-14 16:46:10 · 82 阅读 · 0 评论 -
关于JVM内存设置
运行map、reduce任务的JVM内存调整:(我当时是在jobtracker和tasktracker上都设置了这两参数)<name>mapred.child.java.opts</name> <value>-Xmx2048m</value> <name>mapred.child.ulimit</na...原创 2010-12-20 20:49:31 · 54 阅读 · 0 评论 -
hadoop profiling
和debug task一样,profiling一个运行在分布式hadoop环境下的mapredeuce job是比较困难的。但在hadoop中,是可以让用户针对某些tasks进行profiling采集的,当这些task执行完后,将这些profiling日志保存的文件发送到作业的提交client机器上,然后用户就可以用自己熟悉的工具来分析这些profiling日志,进行tasks执行瓶...原创 2010-12-20 20:52:26 · 90 阅读 · 0 评论 -
hadoop中每个节点map和reduce个数的设置调优
mapred.tasktracker.map.tasks.maximum 这个是一个task tracker中可同时执行的map的最大个数,默认值为2,看《pro hadoop》:it is common to set this value to the effective number of CPUs on the node 把Job分割成map和reduce...原创 2011-01-05 19:28:00 · 255 阅读 · 0 评论 -
混洗和排序
在mapreduce过程中,map输出的结果默认是按照key进行排序的,这个排序的过程加上与将map的输出结果传送到reducer作为输入的过程统称为混洗。理解混洗的过程对于理解整个hadoop很有帮助,书中也提到混洗就是hadoop发挥它威力的地方。1. map side:map函数执行后会不断的产生结果,这些结果不是简单的写入磁盘的。每个map任务都有一个循环队列,map输...原创 2011-01-05 19:33:16 · 322 阅读 · 0 评论 -
hadoop参数配置(mapreduce数据流)
Hadoop配置文件设定了Hadoop平台运行时各方面属性。大量实验证明,合理的配置会大大提高Hadoop的性能。在Hadoop-0.19.2版本中,Hadoop配置文件在conf目录下,包括文件hadoop-default.xml和hadoop-site.xml,前者做了默认配置,不允许修改,用户需要配置时可以在后者中设置。Hadoop平台启动时首先加载hadoop-site.xm...原创 2011-01-14 11:08:51 · 82 阅读 · 0 评论 -
hadoop 源码分析一
InputFormat:将输入的数据集切割成小数据集 InputSplits, 每一个 InputSplit 将由一个 Mapper 负责处理。此外 InputFormat 中还提供一个 RecordReader 的实现, 将一个 InputSplit 解析成 <key,value> 对提供给 map ...原创 2011-02-22 15:29:13 · 77 阅读 · 0 评论 -
hadoop
hadoop job解决大数据量关联时数据倾斜的一种办法 http://www.geminikwok.com/2011/04/02/hadoop-job%E8%A7%A3%E5%86%B3%E5%A4%A7%E6%95%B0%E6%8D%AE%E9%87%8F%E5%85%B3%E8%81%94%E6%97%B6%E6%95%B0...原创 2011-10-08 12:20:05 · 83 阅读 · 0 评论 -
7 Tips for Improving MapReduce Performance
http://www.cloudera.com/blog/2009/12/7-tips-for-improving-mapreduce-performance/7 Tips for Improving MapReduce Performanceby Todd LipconDecember 17, 2009no comments ...原创 2011-03-11 15:06:14 · 137 阅读 · 0 评论 -
Configuration Parameters: What can you just ignore?
http://www.cloudera.com/blog/2009/03/configuration-parameters-what-can-you-just-ignore/ Configuring a Hadoop cluster is something akin to voodoo. There are a large number of variables in hadoop-de...原创 2011-03-11 15:16:24 · 141 阅读 · 0 评论 -
eclipse中编译hadoop(hive)源码
本人按照下面编译Hadoop所说的方法在eclipse中编译hive没有成功。在windows上重新装了一个ant1.8,在cmd中直接用ant编译成功。 eclipse中编译没有成功原因是 D:\workspace\hive\build-common.xml:392: java.lang.UnsupportedClassVersionError: Bad version ...原创 2011-03-24 13:20:52 · 162 阅读 · 0 评论 -
hadoop作业运行部分源码
一、客户端Map-Reduce的过程首先是由客户端提交一个任务开始的。提交任务主要是通过JobClient.runJob(JobConf)静态函数实现的:public static RunningJob runJob(JobConf job) throws IOException { //首先生成一个JobClient对象 JobClient jc = new...原创 2011-03-31 10:51:07 · 102 阅读 · 0 评论 -
Job运行流程分析
http://www.cnblogs.com/forfuture1978/archive/2010/11/19/1882279.html 三 MapReduce框架结构1 角色1.1 JobTrackerJobTracker是一个master服务, JobTracker负责调度job的每一个子任务task运行于TaskTracker上,并监控它们,如果发现有失败...原创 2011-03-31 11:04:40 · 709 阅读 · 0 评论 -
hadoop作业调优参数整理及原理
1 Map side tuning参数1.1 MapTask运行内部原理当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂,并且利用到了内存buffer来进行已经产生的部分结果的缓存,并在内存buffer中进行一些预排序来优化整个map的性能。如上图所示,每一个map都...原创 2011-04-15 14:02:11 · 124 阅读 · 0 评论 -
HADOOP报错Incompatible namespaceIDs
HADOOP报错Incompatible namespaceIDs 收藏 今早一来,突然发现使用-put命令往HDFS里传数据传不上去了,抱一大堆错误,然后我使用bin/hadoop dfsadmin -report查看系统状态admin@adw1:/home/admin/joe.wangh/hadoop-0.19...原创 2010-12-14 12:56:51 · 99 阅读 · 0 评论 -
node1-node6搭建hadoop
环境:node1-node6node1为主节点hadoop0.20.2 node1-node6共享/home文件系统(NFS)安装hadoop:(用户为cq)安装jdk:在/home/cq/jdk1.6.0_18(在一台上安装后6台共享) ssh配置(在NFS上共享authorized_keys):在用户cq的根目录下设置[cq@node...原创 2010-12-13 18:42:48 · 102 阅读 · 0 评论 -
Hbase和RDBMS的区别
转自http://www.jdon.com/jivejdon/thread/38244最近因为项目原因,研究了Cassandra,Hbase等几个NoSQL数据库,最终决定采用HBase。在这里,我就向大家分享一下自己对HBase的理解。 在说HBase之前,我想再唠叨几句。做互联网应用的哥们儿应该都清楚,互联网应用这东西,你没办法预测你的系统什么时候会被多少人访问,你面...原创 2010-09-15 11:11:57 · 279 阅读 · 0 评论 -
Hbase
HBase是Hadoop中的一个简单数据库。它与Google的Bigtable特别相似,但也存在许多的不同之处。数据模型HBase数据库使用了和Bigtable非常相似的数据模型。用户在表格里存储许多数据行。每个数据行都包括一个可排序的关键字,和任意数目的列。表格是稀疏的,所以同一个表格里的行可能有非常不同的列,只要用户喜欢这样做。 列名是“<族名>:<...原创 2010-09-15 15:02:02 · 60 阅读 · 0 评论 -
Hadoop示例程序WordCount运行及详解
最近在学习云计算,研究Haddop框架,费了一整天时间将Hadoop在Linux下完全运行起来,看到官方的map-reduce的demo程序WordCount,仔细研究了一下,算做入门了。 运行方法:假设:/home/cq/wordcount/input - 是HDFS中的输入路径 /home/cq/wordcount/output...原创 2010-09-15 15:14:54 · 129 阅读 · 0 评论 -
HDFS+MapReduce+Hive+HBase十分钟快速入门
HDFS+MapReduce+Hive+HBase十分钟快速入门 1. 前言本文的目的是让一个从未接触Hadoop的人,在很短的时间内快速上手,掌握编译、安装和简单的使用。2. Hadoop家族截止2009-8-19日,整个Hadoop家族由以下几个子项目组成:...原创 2010-09-16 19:15:05 · 63 阅读 · 0 评论 -
HDFS+MapReduce+Hive+HBase十分钟快速入门(二)
9.3. 编译Hive在编译Hive之前,请确保HADOOP_HOME和IVY_HOME两个环境变量已经生效。1) 使用svn从http://svn.apache.org/repos/asf/hadoop/hive/trunk下载Hive源代码2) ...原创 2010-09-17 11:17:03 · 132 阅读 · 0 评论 -
Hadoop的Eclipse插件配置
hadoop上的软甲安装一定要注意版本问题,之前搞了很久都不能用是因为eclipse 3.4版本过高,hadoop插件不支持。后来改用eclipse 3.3 运行良好。hadoop 0.20.2========================================================Hadoop的目录下hadoop-0.20.2\contrib\eclipse-p...原创 2010-09-17 19:52:58 · 74 阅读 · 0 评论 -
Hadoop的运行痕迹
在使用hadoop的时候,可能遇到各种各样的问题,然而由于hadoop的运行机制比较复杂,因而出现了问题的时候比较难于发现问题。本文欲通过某种方式跟踪Hadoop的运行痕迹,方便出现问题的时候可以通过这些痕迹来解决问题。一、环境的搭建为了能够跟踪这些运行的痕迹,我们需要搭建一个特殊的环境,从而可以一步步的查看上一节提到的一些关键步骤所引起的变化。我们首先搭建一个拥有一个Name...原创 2010-11-25 21:05:15 · 70 阅读 · 0 评论 -
hdfs资料整理
附件。原创 2010-11-26 11:36:04 · 75 阅读 · 0 评论 -
hadoop 0.20 程式開發
hadoop 0.20 程式開發 eclipse plugin + Makefile 零. 前言 ¶開發hadoop 需要用到許多的物件導向語法,包括繼承關係、介面類別,而且需要匯入正確的classpath,否則寫hadoop程式只是打字練習...用類 vim 來處理這種複雜的程式,有可能會變成一場惡夢,因此用eclipse開發,搭配mapreduc...原创 2010-11-30 17:15:37 · 78 阅读 · 0 评论 -
HDFS添加和删除节点
From http://developer.yahoo.com/hadoop/tutorial/module2.htmlRebalancing Blocks如何添加新节点到集群:New nodes can be added to a cluster in a straightforward manner. On the new node, the same Hadoo...原创 2010-12-04 14:45:39 · 117 阅读 · 0 评论 -
HDFS常用命令
文件系统检查bin/hadoop fsck [path] [options] bin/hadoop fsck / bin/hadoop fsck / -move bin/hadoop fsck / -files -blocks bin/hadoop dfsadmin -report.原创 2010-12-04 14:59:46 · 483 阅读 · 0 评论 -
namenode 内部关键数据结构简介
http://www.tbdata.org/archiv namenode 内部关键数据结构简介 十一月 25th, 2010 Posted in hadoop 1 Comment »1 概述 本文档目的在于对namenode中各种关键的数据结构进行剖析和解释,以方便更好...原创 2010-12-07 16:35:07 · 195 阅读 · 0 评论 -
hadoop启动耗时
http://blog.csdn.net/AE86_FC/archive/2010/08/08/5796622.aspx背景 hadoop的HDFS系统结构里,namenode一直是一个单点,不管是单点出错还是单点性能方便,都是单点。这一直是HDFS想要达到7 * 24小时服务的最大的阻碍。在hadoop apache社区和仅有的那几家...原创 2010-12-07 17:28:33 · 303 阅读 · 0 评论 -
Hadoop的Secondary NameNode方案
http://book.51cto.com/art/201205/339038.htm Hadoop的Secondary NameNode方案(不是双机热备)该方案启动一个Secondary NameNode节点,该节点定期从NameNode节点上下载元数据信息(元数据镜像fsimage 和元数据库操作日志edits),然后将fsimage和edits进行合并,生成新的fsimag...原创 2012-11-13 10:39:17 · 176 阅读 · 0 评论