自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

转载 hadoop中mapreduce部分执行流程

概括Hadoop包括hdfs与mapreduce两部分,在试用期期间我主要看了mapreduce部分,即hadoop执行作业的部分。mapreduce中几个主要的概念       mapreduce整体上可以分为这么几条执行的线索,jobclient,JobTracker与TaskTracker。JobClient

2012-03-27 17:24:25 1190

转载 hadoop namenode启动过程详细剖析及瓶颈分析

NameNode中几个关键的数据结构FSImageNamenode 会将 HDFS 的文件和目录元数据存储在一个叫 fsimage 的二进制文件中,每次保存 fsimage 之后到下次保存之间的所有 hdfs 操作,将会记录在 editlog 文件中,当 editlog 达到一定的大小( bytes ,由 fs.checkpoint.size 参数定义)或从上次保存过后一定时间段过后( s

2012-03-27 17:19:52 573

转载 Hadoop是怎么分块的

hadoop的分块有两部分,其中第一部分更为人熟知一点。 第一部分就是数据的划分(即把File划分成Block),这个是物理上真真实实的进行了划分,数据文件上传到HDFS里的时候,需要划分成一块一块,每块的大小由hadoop-default.xml里配置选项进行划分。   dfs.block.size  67108864  The default block size

2012-03-27 17:18:25 529

转载 Hadoop MapReduce中如何处理跨行Block和UnputSplit

Hadoop的初学者经常会疑惑这样两个问题:1.Hadoop的一个Block默认是64M,那么对于一个记录行形式的文本,会不会造成一行记录被分到两个Block当中?2.在把文件从Block中读取出来进行切分时,会不会造成一行记录被分成两个InputSplit,如果被分成两个InputSplit,这样一个InputSplit里面就有一行不完整的数据,那么处理这个InputSplit的Mapper会不

2012-03-27 17:17:14 1256

原创 hadoop 操作数据库。DBInputFormat,DBOutputFormat

hadoop 操作数据库。DBInputFormat,DBOutputFormatimport java.io.IOException;import java.util.Iterator;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import o

2012-03-18 13:16:20 1411

转载 实现按行而不是按文件大小来切分的文件的方法

NLineInputFormat继承自FileInputFormat,它实现按行而不是按文件大小来切分的文件的方法。        重写了FileInputFormat中的getSplits()和createRecordReader()方法,因为NLineInputFormat是在旧的mapreduce框架下写的,这里写了新框架下的NLineIputFormat,代码如下:

2012-03-17 20:54:30 814

转载 Hadoop中的数据库访问以及注意事项

Hadoop主要用来对非结构化或半结构化(HBase)数据进行存储和分析,而结构化的数据则一般使用数据库来进行存储和访问。本文的主要内容则是讲述如何将Hadoop与现有的数据库结合起来,在Hadoop应用程序中访问数据库中的文件。 1.DBInputFormatDBInputFormat是Hadoop从0.19.0开始支持的一种输入格式,包含在包org.apache.hadoop.ma

2012-03-16 10:33:42 969

转载 FileInputFormat分析

一. 程序简介        在mapreduce程序运行的开始阶段,hadoop需要将待处理的文件进行切分,按定义格式读取等操作,这些操作都在InputFormat中进行。         InputFormat是一个抽象类,他含有getSplits()和createRecordReader()抽象方法,在子类中必须被实现。这两个就是InputFormat的基本方法。getSplit

2012-03-15 15:51:34 830

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除