- 博客(8)
- 收藏
- 关注
转载 hadoop中mapreduce部分执行流程
概括Hadoop包括hdfs与mapreduce两部分,在试用期期间我主要看了mapreduce部分,即hadoop执行作业的部分。mapreduce中几个主要的概念 mapreduce整体上可以分为这么几条执行的线索,jobclient,JobTracker与TaskTracker。JobClient
2012-03-27 17:24:25 1190
转载 hadoop namenode启动过程详细剖析及瓶颈分析
NameNode中几个关键的数据结构FSImageNamenode 会将 HDFS 的文件和目录元数据存储在一个叫 fsimage 的二进制文件中,每次保存 fsimage 之后到下次保存之间的所有 hdfs 操作,将会记录在 editlog 文件中,当 editlog 达到一定的大小( bytes ,由 fs.checkpoint.size 参数定义)或从上次保存过后一定时间段过后( s
2012-03-27 17:19:52 573
转载 Hadoop是怎么分块的
hadoop的分块有两部分,其中第一部分更为人熟知一点。 第一部分就是数据的划分(即把File划分成Block),这个是物理上真真实实的进行了划分,数据文件上传到HDFS里的时候,需要划分成一块一块,每块的大小由hadoop-default.xml里配置选项进行划分。 dfs.block.size 67108864 The default block size
2012-03-27 17:18:25 529
转载 Hadoop MapReduce中如何处理跨行Block和UnputSplit
Hadoop的初学者经常会疑惑这样两个问题:1.Hadoop的一个Block默认是64M,那么对于一个记录行形式的文本,会不会造成一行记录被分到两个Block当中?2.在把文件从Block中读取出来进行切分时,会不会造成一行记录被分成两个InputSplit,如果被分成两个InputSplit,这样一个InputSplit里面就有一行不完整的数据,那么处理这个InputSplit的Mapper会不
2012-03-27 17:17:14 1256
原创 hadoop 操作数据库。DBInputFormat,DBOutputFormat
hadoop 操作数据库。DBInputFormat,DBOutputFormatimport java.io.IOException;import java.util.Iterator;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import o
2012-03-18 13:16:20 1411
转载 实现按行而不是按文件大小来切分的文件的方法
NLineInputFormat继承自FileInputFormat,它实现按行而不是按文件大小来切分的文件的方法。 重写了FileInputFormat中的getSplits()和createRecordReader()方法,因为NLineInputFormat是在旧的mapreduce框架下写的,这里写了新框架下的NLineIputFormat,代码如下:
2012-03-17 20:54:30 814
转载 Hadoop中的数据库访问以及注意事项
Hadoop主要用来对非结构化或半结构化(HBase)数据进行存储和分析,而结构化的数据则一般使用数据库来进行存储和访问。本文的主要内容则是讲述如何将Hadoop与现有的数据库结合起来,在Hadoop应用程序中访问数据库中的文件。 1.DBInputFormatDBInputFormat是Hadoop从0.19.0开始支持的一种输入格式,包含在包org.apache.hadoop.ma
2012-03-16 10:33:42 969
转载 FileInputFormat分析
一. 程序简介 在mapreduce程序运行的开始阶段,hadoop需要将待处理的文件进行切分,按定义格式读取等操作,这些操作都在InputFormat中进行。 InputFormat是一个抽象类,他含有getSplits()和createRecordReader()抽象方法,在子类中必须被实现。这两个就是InputFormat的基本方法。getSplit
2012-03-15 15:51:34 830
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人