2013年01月_liuhong1123

原创 HDFS2.X:系统时间戳机制在块报告中的应用

在数据块报告过程中，如果遇到报告的块的时间戳大于从节点NameNode的时间戳，会将这样的数据块放入一个消息队列，等从节点消化到相关的块信息，再从消息队列中取出数据块，建立块信息与副本的映射关系。这样，报告的块是放入消息队列呢还是直接建立映射，就取决于时间戳的判断了。这个机制具体是如何实现的呢？下面通过一个示意图来说明。由上图，该机制分为如下步骤：1. 主节点NameNode

2013-01-13 23:37:42 1041

原创 HDFS应用场景分析

原文来自云台博客：http://yuntai.1kapp.com/?p=954 虽然说之前也对HDFS的应用场景有个大致的认识，但是总感觉不是十分彻底，因此前几天花了点时间进行了整理，现在把它贴出来。 1.概况1） HDFS不适合大量小文件的存储，因NameNode将文件系统的元数据存放在内存中，因此存储的文件数目受限于NameNode的内存大小。HDFS

2013-01-03 23:03:16 12967

原创 HDFS2.X源码分析之：NameNode写文件原理

原文出自云台博客：http://yuntai.1kapp.com/?p=950 HDFS被设计成写一次，读多次的应用场景，这应该跟它的MapReduce机制是紧密关联的，通过对线上的读写比例监控，大概读写比是10:1，也验证了它设计的目标。 GFS论文提到的写入文件简单流程：HDFS详细流程：写入文件的过程比读取较为复杂：1、使用HDFS提供

2013-01-03 22:33:37 2550

原创 HDFS2.X源码分析之：NameNode读文件原理

原文出自云台博客：http://yuntai.1kapp.com/?p=952HDFS被设计成写一次，读多次的应用场景，这应该跟它的MapReduce机制是紧密关联的，通过对线上的读写比例监控，大概读写比是10:1，也验证了它设计的目标。3.1 读流程分析GFS论文提到的文件读取简单流程：在HDFS中，具体流程如下图：从上图，可以看出读取文件需要如下几个

2013-01-03 22:21:04 1638

原创 HDFS2.X源码分析之：NameNode块报告处理

原文出自云台博客：http://yuntai.1kapp.com/?p=941 NameNode会接收两种情况的块报告，DataNode全部块报告与增量块报告。4.1全量报告分析目前全量报告以周期性进行报告，既然已经有启动时候的全量数据块报告，错误块报告，增量块报告（包括删除块报告），为什么还需要周期性全量块报告呢?比如某DataNode接受到数据块但是增量报告

2013-01-03 11:17:13 2666

原创 HDFS2.X源码分析之：NameNode对几种块的处理方式

原文出自云台博客：http://yuntai.1kapp.com/?p=935 在NameNode接受数据块报告的过程中，会检查块的副本中是否有无效块，坏块，无效块，和块的副本数不够问题，由于这部分涉及到NameNode对块管理的核心机制，在这里独立出来进行分析。无效块：如果DN报告上来了块信息，但是该块副本信息在NN端找不到，认为该块为无效，加入无效集合invalid

2013-01-03 10:57:14 978

原创 hadoop2.X之HDFS集群管理：ReplicationMonitor

原文出自云台博客：http://yuntai.1kapp.com/?p=930 ReplicationMonitor在HDFS中的工作相当重要，首先不仅会负责为副本不足的数据块选择source 数据节点，选择冗余的target节点，等待DN节点下次心跳将这些工作带回给相应的DN执行块冗余操作，同时也会将各个数据节点上无效的数据块副本加入无效集合，等待下次心跳将这些工作带回给相应的

2013-01-03 10:45:57 2259 2

原创 HDFS2.X源码分析之：NameNode启动流程分析

目前，NameNode有多种启动：HA方式的从节点，非HA方式的主节点，BackUp（checkpoint）节点switch (startOpt) {//文件系统格式化 case FORMAT: { boolean aborted = format(conf, startOpt.getForceFormat(), startOpt.ge

2013-01-03 22:42:56 1621

原创 hadoop2.0之HDFS集群管理：HeartbeatManager及其报告周期问题

心跳管理器主要用于管理DataNode的心跳，如果某DataNode在一段时间内（10分30秒）停止与NameNode发生心跳，则会将该DataNode直接标记为死亡节点，而不是先退役，因为可能该DN真的已经死亡了，而不用经历退役阶段。为了不引起一连串的DataNode被标记为死亡，每次只允许一个DataNode节点被声明为死亡，并从DatanodeManager，heartbeatManager

2013-01-03 11:09:47 1115

原创 hadoop2.0之HDFS集群管理：PendingReplicationMonitor

如果一个数据块需要冗余，会将其加入pendingReplications集合，如果块副本冗余完毕到某DataNode节点，该DN节点会报告给NameNode，然后NameNode从pendingReplications将块删除，如果一致没报告上来，会在一定时间范围内存储在pendingReplications内。pendingReplications为MapPendingBlockInfo>类型集

2013-01-03 11:04:34 1220

liuhong的专栏