2012年03月_ailands

转载 hadoop中mapreduce部分执行流程

概括Hadoop包括hdfs与mapreduce两部分，在试用期期间我主要看了mapreduce部分，即hadoop执行作业的部分。mapreduce中几个主要的概念 mapreduce整体上可以分为这么几条执行的线索，jobclient，JobTracker与TaskTracker。JobClient

2012-03-27 17:24:25 1190

转载 hadoop namenode启动过程详细剖析及瓶颈分析

NameNode中几个关键的数据结构FSImageNamenode 会将 HDFS 的文件和目录元数据存储在一个叫 fsimage 的二进制文件中，每次保存 fsimage 之后到下次保存之间的所有 hdfs 操作，将会记录在 editlog 文件中，当 editlog 达到一定的大小（ bytes ，由 fs.checkpoint.size 参数定义）或从上次保存过后一定时间段过后（ s

2012-03-27 17:19:52 573

转载 Hadoop是怎么分块的

hadoop的分块有两部分，其中第一部分更为人熟知一点。第一部分就是数据的划分（即把File划分成Block），这个是物理上真真实实的进行了划分，数据文件上传到HDFS里的时候，需要划分成一块一块，每块的大小由hadoop-default.xml里配置选项进行划分。 dfs.block.size 67108864 The default block size

2012-03-27 17:18:25 529

转载 Hadoop MapReduce中如何处理跨行Block和UnputSplit

Hadoop的初学者经常会疑惑这样两个问题：1.Hadoop的一个Block默认是64M，那么对于一个记录行形式的文本，会不会造成一行记录被分到两个Block当中？2.在把文件从Block中读取出来进行切分时，会不会造成一行记录被分成两个InputSplit，如果被分成两个InputSplit，这样一个InputSplit里面就有一行不完整的数据，那么处理这个InputSplit的Mapper会不

2012-03-27 17:17:14 1256

原创 hadoop 操作数据库。DBInputFormat，DBOutputFormat

hadoop 操作数据库。DBInputFormat，DBOutputFormatimport java.io.IOException;import java.util.Iterator;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import o

2012-03-18 13:16:20 1411

转载实现按行而不是按文件大小来切分的文件的方法

NLineInputFormat继承自FileInputFormat，它实现按行而不是按文件大小来切分的文件的方法。重写了FileInputFormat中的getSplits()和createRecordReader()方法，因为NLineInputFormat是在旧的mapreduce框架下写的，这里写了新框架下的NLineIputFormat，代码如下：

2012-03-17 20:54:30 814

转载 Hadoop中的数据库访问以及注意事项

Hadoop主要用来对非结构化或半结构化（HBase）数据进行存储和分析，而结构化的数据则一般使用数据库来进行存储和访问。本文的主要内容则是讲述如何将Hadoop与现有的数据库结合起来，在Hadoop应用程序中访问数据库中的文件。 1.DBInputFormatDBInputFormat是Hadoop从0.19.0开始支持的一种输入格式，包含在包org.apache.hadoop.ma

2012-03-16 10:33:42 969

转载 FileInputFormat分析

一. 程序简介在mapreduce程序运行的开始阶段，hadoop需要将待处理的文件进行切分，按定义格式读取等操作，这些操作都在InputFormat中进行。 InputFormat是一个抽象类，他含有getSplits()和createRecordReader()抽象方法，在子类中必须被实现。这两个就是InputFormat的基本方法。getSplit

2012-03-15 15:51:34 830

ailands的专栏