hadoop及周边
天天实习
ttshixi.com
展开
-
hadoop集群管理之 SecondaryNameNode和NameNode(转)
光从字面上来理解,很容易让一些初学者先入为主的认为:SecondaryNameNode(snn)就是NameNode(nn)的热备进程。其 实不是。snn是HDFS架构中的一个组成部分,但是经常由于名字而被人误解它真正的用途,其实它真正的用途,是用来保存namenode中对HDFS metadata的信息的备份,并减少namenode重启的时间。对于hadoop进程中 ,要配置好并正确的使...原创 2012-07-31 19:13:55 · 140 阅读 · 0 评论 -
Shuffle-我能找到的最详细的文档-(转)
Reduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在这里我尽最大的可能试着把Shuffle说清楚,让每一位想了解它原理的朋友都能有所收获。如果你对这篇文章有任何疑问或建议请留言到后面,谢谢! Shuffle的正常意思是洗牌或弄乱原创 2012-09-11 16:02:54 · 78 阅读 · 0 评论 -
hadoop-map-reduce执行流程调研报告
2012-08-23 17:02:34 · 77 阅读 · 0 评论 -
Hadoop杂记
下分区跟datanode一样(目录最好分布在不同的磁盘上,一个目录对应一个磁盘),namenode存储目录需要格式化,datanode存储目录不需要格式化,启动时自动创建 同一个datanode上的每个磁盘上的块不会重复,不同datanode之间的块才可能重复 一些文件的说明: 1、dfs.hosts 记录即将作为datanode加入集群的机器列表 2、mapred.hosts 记录即将作为tasktracker加入集群的机器列表 3、dfs.hosts.exclud原创 2012-07-31 22:35:55 · 57 阅读 · 0 评论 -
hadoop添加垃圾回收站 管用
een trash checkpoints. If zero, the trash feature is disabled原创 2012-07-31 19:24:57 · 79 阅读 · 0 评论 -
hadoop集群管理之 SecondaryNameNode和NameNode(转)
原创 2012-07-31 19:13:55 · 117 阅读 · 0 评论 -
Shuffle-我能找到的最详细的文档-(转)
MapReduce:详解Shuffle过程 博客分类: mapreduce MapreduceITeye数据结构多线程Hadoop . Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapRedu...原创 2012-09-11 16:02:54 · 193 阅读 · 0 评论 -
hadoop-map-reduce执行流程调研报告
hadoop-map-reduce执行流程调研报告 参与者: Client 简称:C JobTracker 简称:JT TaskTracker 简称:TT DataNode 简称:DN NameNode 简称:NN 流程描述: 简述: 作业的提交 -> Map任务的分配和执行 -> Reduce任务的分配和执行 -> 作业的完成 每个具体的任务又分: 准...2012-08-23 17:02:34 · 111 阅读 · 0 评论 -
Paxos-基于消息的分布式一致性
描述了这样一个场景,有一个叫做Paxos的小岛(Island)上面住了一批居民,岛上面所有的事情由一些特殊的人决定,他们叫做议员(Senator)。议员的总数(Senator Count)是确定的,不能更改。岛上每次环境事务的变更都需要通过一个提议(Proposal),每个提议都有一个编号(PID),这个编号是一直增长的,不能倒退。每个提议都需要超过半数((Senator Count)/2 +1)...原创 2012-12-04 11:16:58 · 223 阅读 · 0 评论 -
Hadoop杂记
Hadoop杂记 namenode(hdfs)+jobtracker(mapreduce)可以放在一台机器上,datanode+tasktracker可以在一台机器上,辅助namenode要单独放一台机器,jobtracker通常情况下分区跟datanode一样(目录最好分布在不同的磁盘上,一个目录对应一个磁盘),namenode存储目录需要格式化,datanode存储目录不需要格式化,启动...原创 2012-07-31 22:35:55 · 72 阅读 · 0 评论 -
hadoop添加垃圾回收站 管用
hadoop添加垃圾回收站 管用 在core-site.xml中增加如下配置,表明rm后会在trash中保留多少分钟: fs.trash.interval 10080 Number of minutes between trash checkpoints. If zero, the trash feature is disabled ...原创 2012-07-31 19:24:57 · 93 阅读 · 0 评论 -
Paxos-基于消息的分布式一致性
r Count)是确定的,不能更改。岛上每次环境事务的变更都需要通过一个提议(Proposal),每个提议都有一个编号(PID),这个编号是一直增长的,不能倒退。每个提议都需要超过半数((Senator Count)/2 +1)的议员同意才能生效。每个议员只会同意大于当前编号的提议,包括已生效的和未生效的。如果议员收到小于等于当前编号的提议,他会拒绝,并告知对方:你的提议已经有人提过了。这里的当前编号是每个议员在自己记事本上面记录的编号,他不断更新这个编号。整个议会不能保证所有议员记事本上的编号总是相同的。原创 2012-12-04 11:16:58 · 65 阅读 · 0 评论