hadoop源码研究 -M/R(1)

最新推荐文章于 2024-04-19 17:08:10 发布

coco_ethan

最新推荐文章于 2024-04-19 17:08:10 发布

阅读量764

点赞数

分类专栏： hadoop 文章标签： hadoop 源码

hadoop 专栏收录该内容

35 篇文章 1 订阅

订阅专栏

InputFormat

将输入的数据集切割成小数据集 InputSplits, 每一个 InputSplit 将由一个 Mapper 负责处理。此外 InputFormat 中还提供一个 RecordReader 的实现, 将一个 InputSplit 解析成 <key,value> 对提供给 map 函数。
默认：TextInputFormat
(针对文本文件，按行将文本文件切割成 InputSplits, 并用 LineRecordReader 将 InputSplit 解析成 <key,value> 对，key 是行在文件中的位置，value 是文件中的一行)

OutputFormat

提供一个 RecordWriter 的实现，负责输出最终结果
  默认：TextOutputFormat
(用 LineRecordWriter 将最终结果写成纯文件文件,每个 <key,value> 对一行，key 和 value 之间用 tab 分隔)
SequenceFileOutputFormat

OutputKeyClass

输出的最终结果中 key 的类型
  默认： LongWritable


OutputValueClass

输出的最终结果中 value 的类型
  默认： Text


MapperClass

Mapper 类，实现 map 函数，完成输入的 <key,value> 到中间结果的映射
   默认：IdentityMapper
(将输入的 <key,value> 原封不动的输出为中间结果)

CombinerClass

实现 combine 函数，将中间结果中的重复 key 做合并
  默认： null
(不对中间结果中的重复 key 做合并)


ReducerClass

Reducer 类，实现 reduce 函数，对中间结果做合并，形成最终结果
  默认： IdentityReducer
(将中间结果直接输出为最终结果)

InputPath

设定 job 的输入目录, job 运行时会处理输入目录下的所有文件
  默认： null


OutputPath

设定 job 的输出目录，job 的最终结果会写入输出目录下
   默认：null


MapOutputKeyClass

设定 map 函数输出的中间结果中 key 的类型
   默认：如果用户没有设定的话，使用 OutputKeyClass


MapOutputValueClass

设定 map 函数输出的中间结果中 value 的类型
   默认：如果用户没有设定的话，使用 OutputValuesClass


OutputKeyComparator

对结果中的 key 进行排序时的使用的比较器
  默认： WritableComparable


PartitionerClass

对中间结果的 key 排序后，用此 Partition 函数将其划分为R份,每份由一个 Reducer 负责处理。
  默认： HashPartitioner
(使用 Hash 函数做 partition)
其他实现：KeyFieldBasedPartitioner PipesPartitioner

coco_ethan

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop源码研究 -M/R(1)

InputFormat 将输入的数据集切割成小数据集 InputSplits, 每一个 InputSplit 将由一个 Mapper 负责处理。此外 InputFormat 中还提供一个 RecordReader 的实现, 将一个 InputSplit 解析成对提供给 map 函数。默认：TextInputFormat(针对文本文件，按行将文本文件切割成 InputSp
复制链接

扫一扫